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江苏 传 智 播客 教育 科技 股份 有 限 公司 (简称 “ 传 智 播客 ”) 是 一 家 致力 于 培养 高 素质 软件 
开发 人 才 的 科技 公司 。 经 过 多 年 探索 , 传 智 播客 的 战略 逐步 完善 ,从 IT 教育 培训 发 展 到 高 
等 教育 ,从 根本 上 解决 以 “人 ”为 单位 的 系统 教育 培训 问题 ,实现 新 的 系统 教育 形态 ,构建 出 
前 后 衔接 、 相 互 呼应 的 分 层次 教育 培训 模式 。 


一 、“ 黑 马 程 序 员 ” 高 端 IT 教育 品牌 


“黑马 程序 员 ” 的 学 员 多 为 大 学 毕业 后 , 想 从 事 IT 行业 ,但 各 方面 条 件 还 不 成 熟 的 年 轻 
人 。“ 黑 马 程序 员 ” 的 学 员 筛 选 制度 非常 严格 ,包括 了 严格 的 技术 测试 .自学 能 力 测试 ,以 及 
性 格 测试 .压力 测试 .品德 测试 等 。 百 里 挑 一 的 残酷 筛选 制度 确保 学 员 质 量 , 并 降低 企业 的 
用 人 风险 。 

自 " 黑 马 程序 员 ?成立 以 来 ,教学 研发 团队 一 直 致 力 于 打造 精品 课程 资源 ,不 断 在 产 ,学 、 
研 3 个 层面 创新 自己 的 执教 理念 与 教学 方针 ,并 集中 “黑马 程序 员 ” 的 优势 力量 ,有 针对 性 地 
出 版 了 计算 机 系列 教材 90 多 种 ,制作 教学 视频 数 十 套 ,发 表 各 类 技术 文章 数 百 篇 。 

“黑马 程序 员 " 不 仅 斥 资 研 发 IT 系列 教材 ,还 为 高 校 师 生 提供 以 下 配套 学 习 资 源 与 
服务 。 


1. 为 大 学 生 提 供 的 配套 服务 


(1) 请 同学 们 登录 http://yx.ityxb.com, 进 入 “高 校 学 习 平台 ”, 免 费 获取 海量 学 习 资 
源 。 平 台 可 以 帮助 高 校 学 生 解 决 各 类 学 习 问 题 。 

(2) 针对 高 校 学 生 在 学 习 过 程 中 存在 的 压力 大 等 问题 ,我 们 
还 面向 大 学 生 量 身 打 造 了 IT 技术 女神 一 一 “ 播 妞 学 姐 ”, 可 提供 E 贡 
教材 配套 源码 ,习题 答案 及 更 多 学 习 资 源 。 同 学 们 快 来 关注 “ 播 国 革 总" 
妞 学 姐 ” 的 微 信 公众 号 boniu1024。 “ 播 妞 学 姐 " 微 信 公 众 号 


2. 为 教师 提供 的 配套 服务 


针对 高 校 教 学 ,“ 黑 马 程序 员 ” 为 IT 系列 教材 精心 设计 了 “教案 十 授课 资源 十 考试 系统 
十 题库 十 教学 辅助 案例 ”的 系列 教学 资源 。 高 校 老 师 请 登录 http://yx.ityxb.com, 进 入 “高 
校 教 辅 平台 ”, 也 可 关注 “ 码 大 牛 ” 老 师 微 信 /QQ: 2011168841 ,获取 配套 资源 ,还 可 以 扫描 下 
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方 二 维 码 ,关注 专 为 IT 教师 打造 的 师资 服务 平台 一 一 “教学 好 助手 ”, 获 取 最 新 的 教学 辅助 


二 、“ 传 智 专修 学 院 ” 一 一 高 等 教育 机 构 


传 智 专 修学 院 是 一 所 由 江苏 省 宿迁 市 教育 局 批准 、 江 苏 传 智 
播客 教育 科技 股份 有 限 公司 投资 创办 的 四 年 制 应 用 型 院 校 。 学 St 
校 致力 于 为 互联 网 ,智能 制造 等 新 兴 行 业 培养 高 精 尖 科技 人 才 ，“ 教 学 好 助手 " 微 信 公众 号 
聚焦 人 工 智能 、 大 数据 、 机 器 人 、 物 联网 等 前 沿 技术 ,开设 软件 工 
程 专业 ,招收 的 学 生 入 校 后 将 接受 系统 化 培养 ,毕业 时 学 生 的 专业 水 平和 技术 能 力 可 满足 大 
型 互联 网 企业 的 用 人 要 求 。 

传 智 专 修学 院 借鉴 卡 内 基 ， 梅 隆 大 学 、 斯 坦 福 大 学 等 世界 著名 大 学 的 办 学 模式 ,采用 
“申请 入 学 ,自主 选拔 ”的 招生 方式 ,通过 深入 调研 企业 需求 ,以 校 企 合作 、 专 业 共 建 等 方式 构 
建 专业 的 课程 体系 。 传 智 专修 学 院 拥 有 项 级 的 教研 团队 、 完 善 的 班级 管理 体系 、 匠 人 精神 的 
现代 学 徒 制 和 敢 为 人 先 的 质保 服务 。 

传 智 专修 学 院 突出 的 办 学 特色 如 下 。 

(1) 立 足 * 高 精 尖 ” 人 才 培 养 。 传 智 专修 学 院 以 国家 重大 战略 和 国际 科学 技术 前 沿 为 导 
向 ,致力 于 为 社会 培养 具有 创新 精神 和 实践 能 力 的 应 用 型 人 才 。 

(2) 项 目 式 教学 ,培养 学 生 自主 学 习 能 力 。 传 智 专修 学 院 打 破 传统 高 校 理论 式 教学 模 
式 , 将 项 目 实战 式 教学 模式 融入 课堂 ,通过 分 组 实战 ,模拟 企业 项 目 开 发 过 程 ,让 学 生 拥 有 真 
实 的 工作 能 力 ,并 持续 培养 学 生 的 自主 学 习 能 力 。 

(3) 创 新 模式 ,就 业 无 忧 。 学 校 为 学 生 提 供 “1 年 工作 式 学 习 ”, 学 生 能 够 进入 企业 边 工 
作 边 学 习 。 与 此 同时 ,我 们 还 提供 专业 老师 指导 学 生 参 加 企业 面试 ,并 且 开 设 了 技术 服务 窗 
口 给 学 生 解 答 工 作 中 遇 到 的 各 种 问题 ,帮助 学 生 顺 利 就 业 。 

如 果 想 了 解 传 智 专修 学 院 更 多 的 精彩 内 容 , 请 关注 微 信 公 众 号 “ 传 智 专修 学 院 ”。 


传 智 播客 
2020 年 2 月 


为 什么 要 学 习 本 书 


招聘 网 站 分 析 系统 是 基于 大 数据 离线 处 理 技术 完成 的 。 大 数据 离线 处 理 具 有 以 下 几 个 
特点 : 数据 量 巨大 且 保存 时 间 长 ;在 大 量 数据 上 进行 复杂 的 批量 运算 ;数据 在 计算 之 前 已 为 
最 终 数据 ,不 会 发 生变 化 :方便 查询 批量 计算 的 结果 ; 相 比较 于 在 线 数据 处 理 , 离 线 处 理 相对 
较为 成 熟 ,通常 是 利用 HDFS 存储 数据 ,MapReduce 做 批量 计算 ,将 计算 完成 的 数据 存储 在 
Hive 数据 仓库 中 。 对 于 想 从 事 大 数据 行业 的 开发 人 员 来 说 ,学 好 大 数据 离线 处 理 流程 尤为 
重要 。 

本 书 通过 Hadoop 生态 系统 完成 大 数据 离线 处 理 , 从 系统 的 开发 流程 角度 展开 内 容 , 在 
流程 中 的 每 个 环节 通过 对 理论 知识 和 实际 代码 的 讲解 ,使 难以 理解 的 原理 变 得 通俗 易 懂 ,有 
利于 读者 充分 地 掌握 大 数据 离线 处 理 相关 流程 。 


关于 本 书 


作为 大 数据 实 训 项 目的 教程 ,最 重要 且 最 难 的 一 件 事情 就 是 将 一 些 复杂 、 难 以 理解 的 思 
想 和 问题 简单 化 ,让 初学 者 能 够 轻松 理解 并 快速 掌握 大 数据 项 目的 开发 流程 。 本 教材 对 大 
数据 项 目 开 发 过 程 的 每 个 环节 都 进行 了 深入 讲解 ,使 读者 由 浅 入 深 地 了 解 每 个 环节 的 知识 
内 容 。 

本 书 共 分 为 6 章 , 各 章 内容 如 下 。 

第 1 章 主 要 介绍 项 目 开 发 的 基本 情况 ,包括 项 目 需 求 . 项 目 目 标 、 项 目 预 备 知识 、 项 目 架 
构 设计 ,技术 选取 、 开 发 环境 、 开 发 工具 以 及 开发 流程 。 通 过 本 章 的 学 习 , 读 者 能 够 明确 项 目 
需求 了解 项 目 开 发 相关 环境 以 及 流程 。 后 续 将 基于 本 章 介 绍 的 项 目 情况 进行 项 目的 开发 。 

第 2 章 主 要 讲解 大 数据 集群 环境 的 搭建 ,包括 Hadoop、Hive、Sqoop、MySQL 和 Linux 
虚拟 机 及 安装 ,并 通过 相关 技术 的 基础 操作 实现 集群 环境 的 测试 。 通 过 本 章 学 习 , 读 者 可 掌 
握 独 立 搭建 大 数据 集群 环境 的 技能 .同时 对 相关 技术 的 基础 操作 有 初步 了 解 。 

第 3 章 主 要 介绍 数据 采集 ,将 本 章 分 为 三 部 分 内 容 ,详细 讲解 网 页 数据 采集 。 首 先 需要 
读者 了 解 网 页 数据 采集 相关 知识 内 容 。 接 下 来 讲解 编写 网 页 数据 采集 程序 的 流程 ,包括 分 
析 网 页 数据 结构 准备 环境 等 内 容 。 最 终 ,通过 Java 编程 语言 完成 网 页 数据 采集 程序 ,并 将 
采集 的 数据 存储 到 HDFS 上 。 

第 4 章 主 要 讲解 数据 预 处 理 , 通 过 分 析 预 处 理 数 据 和 设计 数据 预 处 理 方案 实现 数据 预 
处 理 程序 。 本 章 的 学 习 内 容 主要 包括 实现 数据 预 处 理 程序 的 流程 和 MapReduce 程序 的 运 
行 与 编写 。 通 过 本 章 的 学 习 , 读 者 可 以 掌握 利用 MapReduce 分 布 式 处 理 框架 进行 数据 预 处 
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理 的 技巧 ,熟悉 数据 预 处 理 的 流程 。 

第 5 章 主要 讲解 通过 Hive 做 数据 分 析 的 相关 知识 。 首 先 介绍 数据 分 析 和 Hive 作为 数 
据 仓 库 的 特点 。 然 后 介绍 数据 仓库 的 实现 流程 ,从 数据 仓库 的 设计 到 使 用 HQL 实现 数据 
仓库 。 最 后 通过 HQL 对 数据 进行 分 析 。 通 过 本 章 学 习 , 读 者 将 掌握 HQL 创建 数据 仓库 和 
数据 分 析 的 相关 操作 。 

第 6 章 主 要 讲解 数据 可 视 化 ,使 用 SSM 框架 (Spring、Spring MVC 和 MyBatis)、 
JQuery 和 ECharts 图 表 库 等 网 页 开发 技术 对 数据 分 析 结 果 进 行 可 视 化 展示 。 通 过 本 章 学 
习 , 读 者 将 掌握 开发 网 页 应 用 的 总 体 流程 ,在 网 页 中 以 图 表 形 式 对 分 析 结 果 进 行 可 视 化 
呈现 。 


致谢 
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学 习 目 标 


。 掌握 项 目 需 求 和 目标 ; 

。 了 解 项 目 架构 设计 和 技术 选 型 ; 
。 了 解 项 目 环境 和 相关 开发 工具 ; 
。 理解 项 目 开发 流程 。 


在 人 力 资源 管理 领域 ,网 络 招聘 近年 来 早已 凭借 其 范围 广 , 信 息 量 大 .时 效 性 强 ,流程 简 
单 而 效果 显著 等 优势 ,成 为 企业 招聘 的 核心 方式 。 随 着 大 数据 渐渐 融入 人 类 社会 生活 的 各 
个 领域 ,如 何 使 用 大 数据 优化 企业 招聘 管理 ,提升 企业 招聘 有 效 性 ,是 值得 深入 探讨 的 现实 
课题 。 本 书 将 通过 一 个 招聘 网 站 职位 分 析 项 目 ,完整 演示 如 何 使 用 大 数据 平台 对 国内 大 数 
据 职 位 进行 分 析 。 


1.1 项 目 需求 和 目标 


本 项 目 是 以 国内 某 互联 网 招聘 网 站 全 国 范围 内 的 大 数据 相关 招聘 信息 作为 基础 数据 ， 
其 招聘 信息 能 较 大 程度 地 反映 出 市 场 对 大 数据 相关 职位 的 需求 情况 及 能 力 要 求 , 利 用 这 些 
招聘 信息 数据 通过 大 数据 分 析 平 台 重点 分 析 以 下 几 点 。 

。 分析 大 数据 职位 的 区 域 分 布 情况 。 

。 分析 大 数据 职位 薪资 区 间 分 布 情况 。 

。 分 析 大 数据 职位 相关 公司 的 福利 情况 。 

。 分 析 大 数据 职位 相关 技能 要 求情 况 。 

希望 通过 本 项 目 , 能 够 培养 读者 以 下 几 方 面 的 能 力 。 

。 掌握 Linux 操作 系统 的 安装 和 基本 操作 。 

。 掌握 Hadoop 完全 分 布 式 集群 的 安装 部 署 。 

。 掌握 HDFS Shell 基本 操作 命令 。 

。 掌握 基于 Java 语言 开发 MapReduce 程序 的 方法 。 

。 掌握 数据 仓库 Hive 的 安装 及 Hive SQL 的 使 用 。 

。 掌握 使 用 Eclipse 开发 Maven 程序 的 方法 。 

。 了 解数 据 预 处 理 的 含义 。 

。 了 解 HTTP 相关 概念 。 
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。 掌握 Sqoop 安装 及 数据 迁移 的 使 用 方法 。 

。 掌握 关系 型 数据 库 MySQL 的 安装 及 使 用 。 

。 掌握 基于 SSM 框架 进行 网 站 开发 的 方法 。 

。 掌 握 利 用 ECharts 进行 数据 可 视 化 开发 的 方法 。 
。 掌握 数据 分 析 系 统 的 业务 流程 。 


1.2 ”预备 知识 


本 项 目 是 对 大 数据 知识 体系 的 综合 实践 ,读者 在 进行 项 目 开发 前 ,应 具备 下 列 知识 储备 。 
。 掌握 Java 面向 对 象 编程 思想 。 

。 熟悉 大 数据 相关 技术 ,如 Hadoop、Hive、Sqoop 的 基本 理论 及 原理 。 
。 掌握 HDFS 与 MapReduce 的 Java API 程序 开发 。 

。 熟悉 Linux 操作 系统 Shell 命令 的 使 用 。 

。 掌握 Hadoop、Hive、Sqoop 在 Linux 环境 下 的 基本 操作 。 

。 熟悉 关系 型 数据 库 MySQL 的 原理 ,掌握 SQL 语句 的 编写 。 

。 了解 网 站 前 端 开发 相关 技术 ,例如 HTML、JSP、JQuery、CSS 等 。 

。 了 解 网 站 后 端 开发 框架 Spring 十 Spring MVC 十 MyBatis 整合 使 用 。 
。 熟悉 Eclipse 开发 工具 的 应 用 。 

。 熟悉 Maven 项 目 管理 工具 的 使 用 。 


1.3 项目 架构 设计 及 技术 选取 


在 大 数据 开发 中 ,通常 首要 任务 是 明确 分 析 目 的 , 即 想 要 从 大 量 数据 中 得 到 什么 类 型 的 
结果 ,并 进行 展示 说 明 。 只 有 在 明确 了 分 析 目 的 后 ,开发 人 员 才 能 准确 地 根据 具体 的 需求 去 
过 滤 数据 ,并 通过 大 数据 技术 进行 数据 分 析 和 处 理 , 最 终 将 处 理 结果 以 图 表 等 可 视 化 形式 展 
示 出 来 。 

为 了 让 读者 更 清晰 地 了 解 招聘 网 站 职位 数据 分 析 的 流程 及 架构 ,下 面 通过 一 张 图 来 描 
述 本 项 目的 架构 设计 ,如 图 1-1 所 示 。 
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图 1-1 项 目 架构 图 


1.4 开发 环境 和 开发 工具 介绍 


为 了 让 读者 更 好 地 进行 后 续 学 习 及 项 目 开 发 ,下 面 对 本 项 目 使 用 的 开发 环境 和 开发 工 
具 进 行 说 明 , 具 体 如 表 1-1 一 表 1-4 所 示 。 
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表 1-1 系统 环境 
系 统 版 本 
Windows 10( 专 业 版 ) 或 7( 旗 舰 版 ) 
Linux CentOS 6.7 
表 1-2 开发 工具 
2 版 本 
Eclipse jee-neon-3 
JDK 1.8 
Maven 二 9 
VMware Workstation 12 
表 1-3 集群 环境 
框 和 架 版 本 
Hadoop 2.7.4 
Hive 1.2.1 
Sqoop 1.4.6 
MySQL 5.7.25 
表 1-4 ”Web 环境 
框 和 架 版 本 
Tomcat 7.0.47 
Spring 4.2.4 
Spring MVC 4.2.4 
MyBatis 3.2.8 
ECharts 4.2.1 


读者 可 在 本 书 提供 的 配套 资源 中 下 载 使 用 上 述 所 列 的 全 部 软件 。 


1.5 项目 开发 流程 


项 


目 开 发 之 前 ,根据 项 目 架构 和 需求 制定 合理 的 开发 流程 ,可 以 有 效 提高 开发 效率 。 为 
了 完整 呈现 真实 项 目 开发 的 场景 ,本 书 制定 了 详细 的 开发 流程 ,具体 如 下 。 
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1. 搭建 大 数据 实验 环境 


(1) Linux 系统 虚拟 机 的 安装 与 克隆 。 
(2) 配置 虚拟 机 网 络 与 SSH 服务 。 
(3) 搭建 Hadoop 集群 。 

(4) 安装 MySQL 数据 库 。 

(5) 安装 Hive。 

(6) 安装 Sqoop。 


2. 编写 网 络 息 虫 程序 进行 数据 采集 


(1) 准备 疏 虫 环境 。 
(2) 编写 假 虫 程序 。 
(3) 将 疏 取 的 数据 存储 到 HDFS。 


3. 数据 预 处 理 


(1) 分 析 预 处 理 数 据 。 

(2) 准备 预 处 理 环境 。 

(3) 实现 MapReduce 预 处 理 程序 进行 数据 集成 和 数据 转换 操作 。 
(4) 实现 MapReduce 预 处 理 程 序 的 两 种 运行 模式 。 


4. 数据 分 析 


(1) 构建 数据 仓库 。 

(2) 通过 HSQL 进行 职位 区 域 分 析 。 

(3) 通过 HSQL 进行 职位 薪资 分 析 。 

(4) 通过 HSQL 进行 公司 福利 标签 分 析 。 
(5) 通过 HSQL 进行 技能 标签 分 析 。 


5. 数据 可 视 化 


(1) 构建 关系 型 数据 库 。 

(2) 通过 Sqoop 实现 数据 迁移 。 

(3) 创建 Maven 项 目 配置 项 目 依赖 。 
(4) 编辑 配置 文件 整合 SSM 框架 。 
(5) 完善 项 目 组 织 框架 。 

(6) 编写 程序 实现 职位 区 域 分 布展 示 。 
(7) 编写 程序 实现 薪资 分 布展 示 。 

(8) 编写 程序 实现 福利 标签 词 云图 。 
(9) 编写 程序 实现 技能 标签 词 云图 。 
(10) 预览 平台 展示 内 容 。 
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小 结 


本 章 主要 介绍 了 项 目 开发 的 基本 情况 ,包括 项 目 需求 、 项 目 目标 、 项 目 预 备 知识 、 项 目 架 
构 设计 ,技术 选取 、 开 发 环境 、 开 发 工具 以 及 开发 流程 。 通 过 本 章 的 学 习 , 希 望 读者 能 够 明确 
项 目 需求 .了 解 项目 开发 相关 环境 以 及 流程 ,后 续 将 基于 本 章 介绍 的 项 目 情况 进行 项 目的 
开发 。 
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学 习 目 标 

。 了 解 虚拟 机 的 安装 和 克隆 ; 

。 熟悉 虚拟 机 网 络 配 置 和 SSH 服务 配置 ; 
。 掌握 Hadoop 集群 的 搭建 ; 

。 熟悉 Hive 的 安装 ; 

。 掌握 Sqoop 的 安装 。 


搭建 大 数据 集群 环境 是 开发 本 项 目的 基础 。 考 虑 到 学 习 成 本 和 实际 开发 场景 ,本 书 将 
通过 在 虚拟 机 中 构建 多 个 Linux 操作 系统 的 方式 来 搭建 大 数据 集群 环境 。 


2.1 安装 准备 


Hadoop 本 身 可 以 运行 在 Linux、Windows 以 及 其 他 一 些 常见 操作 系统 之 上 ,但 是 
Hadoop 官方 真正 支持 的 作业 平台 只 有 Linux。 这 就 导致 其 他 平台 在 运行 Hadoop 时 ,需要 
安装 其 他 的 软件 来 提供 一 些 Linux 操作 系统 的 功能 ,以 配合 Hadoop 的 执行 。 鉴 于 
Hadoop、Hive、Sqoop 等 大 数据 技术 大 多 数 都 是 运行 在 Linux 系统 上 ,因此 本 项 目 采 用 
Linux 操作 系统 作为 数据 集群 环境 的 基础 。 


2.1.1 虚拟 机 安装 与 克隆 


大 数据 集群 环境 的 搭建 要 涉及 多 台 机 器 ,而 在 日 常 学习 和 个 人 开发 测试 过 程 中 ,这 显然 
是 不 可 行 的 ,为 此 ,可 以 使 用 虚拟 机 软件 (例如 VMware Workstation) 在 同一 台 计 算 机 上 构 
建 多 个 Linux 虚拟 机 环境 ,从 而 进行 大 数据 集群 环境 的 学 习 和 个 人 测试 。 

接 下 来 将 分 步骤 演示 如 何 使 用 VMware Workstation 虚拟 软件 工具 进行 Linux 系统 虚 
拟 机 的 安装 配置 。 


1. 虚拟 机 的 安装 和 设置 


因为 Linux 系统 的 安装 需要 通过 虚拟 软件 工具 完成 ,所 以 需要 先 下 载 并 安装 好 
VMware Workstation 虚拟 软件 工具 (此 次 演示 的 是 VMware Workstation 12 版 本 的 使 用 ， 
该 工具 下 载 安装 非常 简单 ,具体 可 以 查阅 相关 资料 )。 安 装 成 功 后 打开 VMware 
Workstation 工具 ,效果 如 图 2-1 所 示 。 
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ee WORKSTATION 12 
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创建 新 的 虚拟 机 打开 虚拟 机 连 半 远程 服务 器 连接 到 VMware 
vCloud Air 


图 2-1 VMware Workstation 界面 


(1) 在 图 2-1 中 , 单 击 “ 创 建新 的 虚拟 机 ”选项 进入 新 建 虚 拟 机 向 导 , 在 一 开始 的 “类 型 
的 配置 "界面 选择 “ 自 定义 (高 级 )" 选 项 ,具体 如 图 2-2 所 示 。 


欢迎 使 用 新 建 虚 拟 机 问 导 


WoORKSsTION 你 新 望 使 用 什么 类 型 的 本 置 7 
PRO 


| 口 典 型 (推荐 T) 
通过 几 个 简单 的 步 劝 创 建 Workstation 12.0 
虚拟 机 。 


转自 定义 (高 级 )(C) 
创 蝇 带 有 5CSI 控 制 器 类 型 、 虚 拟 磋 盘 类 型 
ea VMware 产品 兼容 性 等 高 级 选项 


< E(B) 取消 
图 2-2 选择 配置 类 型 


(2) 在 图 2-2 中 , 单 击 “ 下 一 步 ” 按 钮 进入 “选择 虚拟 机 硬件 兼容 性 ”界面 ,在 该 界面 对 内 
容 不 做 更 改 , 具 体 如 图 2-3 所 示 。 
(3) 在 图 2-3 中 , 单 击 “ 下 一 步 ” 按 钮 进入 “安装 客户 机 操作 系统 ”界面 ,选择 “ 稍 后 安装 


7 


8- 
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新 建 去 拟 机 向 导 X 
选择 虚拟 机 硬件 兼容 性 
该 虚拟 机 款 要 何 种 硬件 功能 ? 
虚拟 机 硬件 兼容 性 - 
硬件 兼容 性 (H): Workstation 12.0 ~ 
兼容 : ESX Server(S) 
兼容 产品 : 限制 : 
Fusion 8.x 64 GB 内 存 
Workstation 12.0 16 个 处 理 器 
10 个 网 络 i 
8 TB 磁盘 大 小 
帮助 < 上 一 步 (89) | 下 一 步 (N) > 取消 


2-3 选择 虚拟 机 硬件 兼容 性 


操作 系统 "选项 ,具体 如 图 2-4 所 示 。 


新 建 虚 拟 机 向 导 x 


安装 客户 机 操作 系统 
虚拟 机 如 同 物 理 机 ， 需 要 操作 系统 。 您 将 如 何 安装 窜 户 机 操作 系统 ? 


安装 来 源 : 
安装 程序 光盘 (D); 
无 可 用 驱动 器 


口 安装 程序 光盘 映像 文件 (so)XM): 


Et 
加 稍 后 安装 操作 系统 (5)。 

创建 的 虚拟 机 将 包含 一 个 空白 硬盘 。 

孝 助 | < 上 =- 步 (8) | [FS > ] | 取消 


图 2-4 安装 客户 机 操作 系统 


(4) 在 图 2-4 中 , 单 击 “ 下 一 步 ”按钮 进入 到 “选择 客户 机 操作 系统 ”界面 时 ,选择 此 次 要 
安装 的 客户 机 操作 系统 为 Linux, 版 本 为 CentOS 64 位 ,具体 如 图 2-5 所 示 。 

(5) 在 图 2-5 中 选择 客户 机 操作 系统 后 , 单 击 “ 下 一 步 " 按 钮 ,进入 到 “命名 虚拟 机 ” 界 
面 , 自 定义 配置 虚拟 机 名 称 (示例 中 定义 了 虚拟 机 名 称 为 Hadoop01) 和 安装 位 置 ,具体 如 图 
2-6 所 示 。 

(6) 在 图 2-6 中 , 单 击 “ 下 一 步 ” 按 钮 ,进入 到 “处 理 器 配置 "界面 ,根据 个 人 PC 端的 硬件 
质量 和 使 用 需求 , 自 定义 设置 处 理 器 数 和 每 个 处 理 器 的 核心 数量 ,这 里 选择 的 是 1 个 处 理 器 
和 2 个 处 理 器 核心 数 ,具体 如 图 2-7 所 示 。 
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[sssmas 


选择 客户 机 操作 系统 
此 虚拟 机 中 将 支 装 哪 种 操作 系统 ? 


客户 机 操作 系统 

© Microsoft Windows(W) 
® Lnux(L) 

© Novel NetWare(E) 

© Sobrs(S) 

© VMware ESX(X) 

号 其 他 (0) 


版 本 (V) 


[Centos 64 位 


图 2-5 选择 客户 机 操作 系统 


[上 = 步 B) | [下 = 步 册 > ] [了 消 | 


[ER 有 


攻 梧 ] 
命名 虚拟 机 
您 希望 该 虚拟 机 使 用 什么 名 称 7 
虚拟 机 名 称 (V): 
Hadoop01 
位 置 (LD): 
D:\Itcast-Hadoop\Hadoop01 浏览 (R),,。 
在 "编辑 ”> 首选 顺 中 可 更 改 黑 认 位 置 。 
< 上 -上 (8) | [ 下- 步 ID) > 取消 
图 2-6 命名 虚拟 机 
[sassmnass [ie] 
处 理 器 配置 
为 此 虚拟 机 指定 处 理 器 雪 里 。 
处 理 器 
外 理 器 数量 (p): [Eee 
每 个 处 理 吕 的 核 必 数 量 (C): 蕊 -一 一 一 一 引 
总 处 理 器 核心 二 2 


图 2-7 处 理 器 配置 
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(7) 在 图 2-7 中 完成 处 理 器 配置 后 , 单 击 “下 一 步 ?按钮 ,进入 到 * 此 虚拟 机 的 内 存 界 面 
设置 虚拟 机 占用 的 内 存 , 同 样 根据 个 人 PC 端的 物理 内 存 进行 合理 分 配 。 这 里 搭建 的 


Hadoop01 虚拟 机 后 续 将 作为 Hadoop 集群 主 节点 ,所 以 通常 会 分 配 较 多 的 内 存 。 这 里 将 此 
虚拟 机 的 内 存 指定 为 4096MB( 即 4GB) ,具体 如 图 2-8 所 示 。 


[seness Ex 
此 虚拟 机 的 内 存 
您 要 为 此 虚拟 机 使 用 多 少 内 存 ? 


指定 分 配给 此 虚拟 机 的 内 存量 。 内 存 大 小 必须 为 4 MB 的 倍数 。 


64GB| 此 虚拟 机 的 内 存 (M): 4096 寺 MB 
32GB | i 

168| | ‘4 

3 名 | 局 日 最 大 推荐 内 存 : 

2G@| | 13728 MB 


‘a 
512MB | | 晶 推荐 内 存 : 
256MB | | 1024 MB 


eam 。 噩 客户 机 操作 系统 最 低 推荐 内 存 : 
512 MB 


图 2-8 指定 此 虚拟 机 的 内 存 


(8) 在 图 2-8 中 完成 内 存 设置 后 , 单 击 “ 下 一 步 ”按钮 进入 设置 “网 络 类 型 "的 界面 ,具体 
如 图 2-9 所 示 。 


新 建 虚拟 机 向 导 


网 络 类 型 
要 添加 哪 类 网 络 ? 


网 络 连 接 
〇 使 用 桥 按 网 络 (R) 
为 客户 机 操作 系统 提供 直接 访问 外 部 以 太 网 网 络 的 权限 。 客 户 机 在 外 部 网 络 上 必须 
有 自己 的 了 P 地 址 。 
图 使 用 网 络 地 址 转换 (NAT)(E) 
后 了 于 地 址 访问 主机 拨号 连接 或 外 部 以 太 网 网 络 连 接 的 
〇 使 用 仅 主机 模式 网 络 (H) 
将 客户 机 操作 系统 连接 到 主机 上 的 专用 虚拟 网 络 。 


〇 〇 不 使 用 网 络 连 接 (了 


才 助 < 上 一步 B) | | 下 - 步 (N) > 取消 
图 2-9 网 络 类 型 
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(9) 在 图 2-9 中 , 单 击 * 下 一 步 ? 按 钮 ,进入 * 选 择 I/O 控制 器 类 型 ?界面 ,选择 默认 选项 
即 可 ,具体 如 图 2-10 所 示 。 


新 建 庶 拟 机 向 导 x 


选择 1/0 控制 器 类 型 
您 要 使 用 何 种 类 型 的 SCSI 控制 器 ? 


J/O 控制 器 类 型 
SCSI 控制 器 : 
BusLogic(U) 《不 适用 于 64 位 客户 机 ) 
@LsILogicL) (推荐 ) 
OLsI Logic sAs(s) 


才 助 < 上 =- 步 B) | [下 - 步 m> || B 消 |] 
图 2-10 选择 1/0 控制 器 类 型 


(10) 在 图 2-10 中 , 单 击 “ 下 一 步 " 按 钮 ,进入 “选择 磁盘 类 型 "界面 ,选择 默认 选项 即 可 ， 
具体 如 图 2-11 所 示 。 


新 建 庶 拟 机 向 导 x 


选择 磁盘 类 型 
您 要 创建 何 种 磁盘 ? 


虚拟 磁盘 类 型 

O 〇 IED 

图 SCSKS) (推荐 ) 
OSsATA(A) 


才 助 < 上 一步 (8) | | 下 — 步 (MN) > 取消 | 
图 2-11 选择 磁盘 类 型 


(11) 在 图 2-11 中 , 单 击 * 下 一 步 ?按钮 ,进入 "选择 磁盘 ?界面 ,选择 默认 选项 即 可 ,具体 
如 图 2-12 所 示 。 

(12) 在 图 2-12 中 , 单 击 “ 下 一 步 " 按 钮 ,进入 “指定 磁盘 容量 "界面 ,可 以 根据 实际 需要 
并 结合 PC 端 硬件 情况 合理 选择 最 大 磁盘 大 小 (此 处 演示 使 用 默认 值 20GB), 如 图 2-13 
所 示 。 

(13) 在 图 2-13 中 完成 磁盘 容量 设置 后 , 单 击 “ 下 一 步 ”按钮 进入 “指定 磁盘 文件 ”的 界 
面 ,这 里 使 用 默认 设置 ,如 图 2-14 所 示 。 

(14) 在 图 2-14 中 , 单 击 * 下 一 步 ?按钮 进入 “已 准备 好 创建 虚拟 机 ?界面 ,效果 如 图 2-15 
所 示 。 

图 2-15 展示 了 创建 的 虚拟 机 参数 ,确认 无 误 后 , 单 击 “ 完 成 ”按钮 ,完成 虚拟 机 的 设置 。 


hi 
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@i 


庶 拟 磁盘 由 主机 文件 系统 上 的 一 个 或 多 个 文件 组 成 ， 客 户 机 操作 系统 会 将 其 视 为 单 
个 硬盘 。 虚 氛 碰 盘 可 在 一 台 主机 上 或 多 台 主机 之 间 径 松 复制 或 移动 * 


〇 使 用 现 有 虚拟 感 盘 (E) 

选择 此 选 质 移 重新 使 用 之 前 配置 的 坟 盘 。 

〇 使 用 物理 碰 盘 (适用 于 高 如 用 户 )(P) 

选择 此 赞 顺 村 为 虚拟 机 提供 直接 访问 本 地 醒 入 的 权限 。 


寺 助 <ES) | [FW>] | 了 
图 2-12 选择 磁盘 
新 建 起 拟 机 向 导 加 攻 梧 
指定 磁盘 宕 里 
碳 盘 大 小 为 名 少 ? 
| 。 最 大 各 大 (GBS): 


针对 Cent05 64 位 的 建议 大 小 : 20 6B 


回 立即 分 琵 所 有 磁盘 空间 (A)。 


分 可 所 有 容量 可 以 提高 性 能 ， 和 如 果 不 立即 分 配 
所 有 空间 ， 虚拟 碰 盘 的 空间 最 初 很 小 ， 会 随 着 您 向 其 中 添加 数据 而 不 断交 大 。 


加 将 虚拟 开盘 存储 为 单个 文件 (0) 
图 将 虚拟 谤 盘 拆 分 成 多 个 文件 (M) 


Fy 可 以 更 轻松 地 在 计算 机 之 间 移 动 虚 拟 机 ， 但 可 能 会 降低 大 容 里 磁盘 的 


CC EES® ) (FSW> | MN 


图 2-13 指定 磁盘 容量 


新 建 虚拟 机 向 导 x 


指定 磁盘 文件 
您 要 在 何 处 存储 磁盘 文件 ? 


磁盘 文件 


将 为 每 2 68 容 里 的 虚拟 磁盘 晶 建 一 个 碰 盘 文件 。 除 第 一 个 文件 之 外 ， 每 个 文件 的 文件 
名 称 将 根据 此 处 所 提供 的 文件 名 称 自动 生成 * 


hadoopollvmdk 


部 助 < 上 =- 步 g) | [下 =- 步 岂 > | | 取消 
图 2-14 指定 磁盘 文件 
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[semnss 莉 友 | 


已 准备 好 创建 虚拟 机 
单 击 "完成 “多 峙 庶 氢 机 。 然 后 可 以 支 装 Cent05 6 64 位 。 


将 使 用 下 列 设置 创建 虚拟 机 : 
名 称 : Hadoop01 
位 置 : D:\Itcast-Hadoop\Hadoop01 
版 本 : Workstation 12.x 
操作 系统 : Cent05 664 位 
硬盘 : 20 GB, 拆 分 
内 存 : 4096 MB 
网 络 适配器 : NAT 
其 他 设备 : 2 个 CPU 内 核 , CD/DVD, USB 控制 器 , 打印 机 , 声卡 


CC 堪 [my 
图 2-15 已 准备 好 创建 虚拟 机 


2. 启动 虚拟 机 并 安装 操作 系统 


通过 上 述 对 VMware Workstation 工具 的 操作 ,完成 了 对 于 虚拟 机 硬件 及 基本 信息 的 
配置 ,下 面 将 启动 虚拟 机 并 安装 Linux 操作 系统 。 

(1) 选中 创建 成 功 的 Hadoop01 虚拟 机 ,右键 打开 “设置 "中 的 CD/DVD(IDE) 选 项 , 勾 
选 “ 使 用 ISO 映像 文件 ”选项 ,并 单 击 “ 浏 览 ” 按 钮 来 设置 ISO 映像 文件 所 在 的 具体 地 址 (此 
处 根据 前 面 操作 系统 的 设置 使 用 CentOS 映像 文件 来 初始 化 Linux 系统 ) ,如 图 2-16 所 示 。 


加 Hadoop01 - VMware Workst 贱 i 员 生 =- 
文件 四 。” 坊 错 {E) 喜 看 VW) 点 撞 | | | 
库 设备 杖 态 


QQ、 下 此 处 刍 入 内 容 进 行 搜索 已 连接 (CO) 
- 回 启 : 加 持 接 (0) 有 


连接 
使 用 物理 3 动 器 (P): 
2 选择 CD/DVD 自动 检 别 
夯 使 用 ]50 里 蚀 文 件 (NM): | 
Di\Soft\CentOS-6.7-x86_64 ~ 1 


GD 选择 CentOS 映 聊 文 件 


D 右 键 单 击 设置 


0A).. 


2-16 ”使 用 ISO 映像 文件 
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(2) 单 击 图 2-16 


Pp 的 “确定 ”按钮 ,进入 当前 Hadoop01 主 界面 , 单 击 *“ 开 启 此 虚拟 机 ? 选 


启动 Hadoop01 虚拟 机 进入 CentOS 6.7 的 安装 界面 ,如 图 2-17 所 示 。 


Bhstall or 


11 system 
TY 
fron 1 

Momory tost 


Press [Tab] to edit options 


CentOS 6 


Community ENTerprise Operating System 


2-17 ”安装 CentOS 6.7 系统 的 欢迎 界面 


(3) 选择 图 2-17 中 的 第 一 条 Install or upgrade an existing system 选项 ,引导 驱动 加 载 
完毕 进入 Disc Found 界面 ,如 图 2-18 所 示 。 Disc Founa 
(4) 在 图 2-18 中 , 按 Tab 键 切换 至 Skip 选项 , 然 【|GUSEOAIEESUAOUENEIAEAISLUEEORE 


后 按 Enter 键 就 进入 到 CentOS 操作 系统 的 初始 化 过 


installation press OK. 
Choose Skip to skip the media test 


程 。 单 击 Next 按钮 进入 到 系统 语言 设置 界面 ,为 了 后 | 叶 oO 


续 软件 及 系统 兼容 性 , 通 闻 
(English) 选 项 作为 系统 语言 (若是 为 了 方 便 查看 ee 
择 “Chinese(Simplified) (中 文 (简体 ))” 系 统 语言 ， 


图 2-19 所 示 。 


What language would you like to use during the 
installation process? 


Bulgarian (Ganrapaon) 


Catalan (Catala) 


Chinese(Traditional) ( 文 (正三 ) ) 


Croatian (Hrvatski) 
Czech (Cestina) 
Danish (Dansk) 
Dutch (Nederlands) 


Chinese(Simplified) (中 文 (篇 体 ) ) | 


English (English) 


Estonian (eesti keel) 
Finnish (suomi) 
French (Frangais) 
German (Deutsch) 
Greek (EAAnuxé) 
Gujarati (aard) 
Hebrew (nnay) 
Hindi (Rr) 


常会 使 用 默认 的 English [| 到 


2-18 ”Disc Found 的 界面 


和 Back | [rex | 


2-19 系统 语言 设置 
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(5) 在 图 2-19 中 , 单 击 Next 按钮 ,进入 Select the appropriate keyboard for the system 
界面 ,为 操作 系统 指定 合适 的 键盘 ,这 里 选择 的 是 默认 U.S.English。 单 击 Next 按钮 ,进入 
What type of devices will your installation involve 界面 ,选择 安装 基本 的 存储 设置 , 即 选择 
默认 的 Basic Storage Devices。 单 击 Next 按钮 ,进入 到 Storage Device Warning 界面 , 单 击 


Yes,discard any data 按钮 , 即 清 除 该 设备 上 的 数据 ,如 图 2-20 所 示 。 


Storage Device Warning 


全 The storage device below may contain data. 


= VMware, VMware Virtual S 
= 20480.0 MB pci-0000:00:10.0-scsi-0:0:0:0 
We could not detect partitions or filesystems on this device. 
This could be because the device is blank, unpartitioned, 
orvirtual. If not, there may be data on the device that can 
Not be recovered if you use it in this installation. We can 
remove the device from this installation to protect the data. 


Are you sure this device does not contain valuable data? 


回 Apply my choice to all devices with undetected partitions or filesystems 
Yes, discard any data No, keep any data 


2-20 Storage Device Warning 


(6) 执行 完 如 图 2-20 所 示 的 磁盘 格式 后 ,会 立刻 跳 转 到 设置 主机 名 (Hostname) 界 面 ， 


自 定义 该 虚拟 机 的 主机 名 (此 处 设置 该 虚拟 机 主机 名 (Hostname) 为 hadoop0 
所 示 。 


Please name this computer The 
全 hostname identifes the computer on a 
7 network. 


homame omer 


| Configure Network | 


和 Back | | 只 Next 


2-21 配置 主机 名 


(7) 单 击 图 2-21 中 的 Configure Network 按钮 进行 网 络 配 置 ,在 弹 窗 中 选 


) ,如 图 2-21 


择 唯一 的 网 


卡 System eth0 并 单 击 Edit 按钮 ,进入 该 网 卡 的 配置 界面 ,通过 勾 选 Connect automatically 


选项 并 单 击 Apply 按钮 完成 网 卡 配 置 ,如 图 2-22 所 示 。 


(8) 在 图 2-22 中 , 单 击 Close 按钮 退回 到 主机 名 配置 界面 ,并 单 击 Next 按钮 ,进行 系统 


时 区 的 选择 ,此 处 通常 会 选择 Asia/ShangHai 时 区 ,如 图 2-23 所 示 。 


(9) 在 图 2-23 中 , 单 击 Next 按钮 进入 到 root 用 户 密码 设置 界面 ,读者 可 以 自 定 义 root 


用 户 的 密码 ,如 图 2-24 所 示 。 


在 图 2-24 中 ,设置 密码 时 要 求 密码 长 度 最 低 6 个 字符 ,如 果 密 码 强度 较 低 可 能 出 现 提 
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Editing System etho 


Please name this co 


8 hostname identifies t 


network. 


Connection name: [System ethO 


Connect automatically 


Available to all users 


Network Cd | wired | 802.1x Security | Ipv4 Settings | IPv6 Settings | 


Name las 


id | pevee mac acress 
MTu: automatic 习 bytes 


Hostname: |hadoop01 


FE] [ee 


四 2-22 ”网 卡 配 置 


Please select the nearest city in your time zone: 


Selected city: Shanghai, Asia (Beijing Time) 
Asia/Shanghai 他 


回 System clock uses UTC 


和 和 Back 区 Next ] 


2-23 ”系统 时 区 选择 


示 ,直接 单 击 Use Anyway 选项 即 可 。 

(10) 单 击 图 2-24 中 的 Next 按钮 进入 安装 类 型 的 界面 ,这 里 选择 默认 配置 ,然后 单 击 
Next 按钮 ,进入 到 “磁盘 格式 化 ”界面 ,直接 单 击 Write changes to disk 选项 即 可 ,如 图 2-25 
所 示 。 
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FE The root accountis used for administering 
the system. Enter a password forthe root 
user 


Weak Password 


‘You have provided a weak password: it 
is based on a dictionary word 


Cancel 


| 和 Back | | 中 Next 


2-24 设置 系统 root 用 户 密码 


Writing storage configuration to disk 


The partitioning options you have selected 
will now be written to disk. Any data on 
deleted or reformatted partitions will be lost. 


Go back | Write changes to disk 


图 2-25 磁盘 格式 化 


| Qeack | | 中 vext | 


执行 完 上 述 操作 后 ,虚拟 机 进入 磁盘 格式 化 过 程 . 稍 等 片刻 后 会 跳 转 到 CentOS 系统 安 


装 成 功 的 界面 。 通 过 单 击 Reboot 按钮 重启 系统 ,如 图 2-26 所 示 。 


Congratulations, your CentOs installation is complete. 


Please reboot to use the installed system. Note that updates may be 
available to ensure the proper functioning of your system and installation of 
PS these updates is recommended after the reboot 


别 keboot 


2-26 重启 系统 


至 此 ,就 完成 了 在 虚拟 机 中 安装 CentOS 操作 系统 。 
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3. 克隆 虚拟 机 


目前 已 经 成 功 安装 好 了 一 台 搭 载 CentOS 镜像 文件 的 Linux 系统 ,而 一 台 虚 拟 机 不 能 
满足 搭建 Hadoop 集群 的 要 求 , 因 此 需要 对 已 安装 的 虚拟 机 进行 克隆 。VMware 提供 了 两 
种 类 型 的 克隆 ,分 别 是 完整 克隆 和 链接 克隆 ,具体 介绍 如 下 。 

(1) 完整 克隆 : 是 对 原始 虚拟 机 完全 独立 的 一 个 拷贝 , 它 不 和 原始 虚拟 机 共享 任何 资 
源 , 可 以 脱离 原始 虚拟 机 独立 使 用 。 

(2) 链接 克隆 : 需要 和 原始 虚拟 机 共享 同一 虚拟 磁盘 文件 ,不 能 脱离 原始 虚拟 机 独立 
运行 。 但 是 ,采用 共享 磁盘 文件 可 以 极 大 缩短 创建 克隆 虚拟 机 的 时 间 , 同 时 还 节省 物理 磁盘 
空间 。 通 过 链接 克隆 ,可 以 轻松 地 为 不 同 的 任务 创建 一 个 独立 的 虚拟 机 。 

以 上 两 种 克隆 方式 中 ,完整 克隆 的 虚拟 机 文件 相对 独立 并 且 安 全 ,在 实际 开发 中 也 较为 
常用 。 因 此 ,此 处 以 完整 克隆 方式 为 例 ,分 步骤 演示 虚拟 机 的 克隆 。 

(1) 在 克隆 之 前 需要 先 关闭 Hadoop01 虚拟 机 .在 VMware 工具 左 侧 系统 资源 库 中 右 
键 单 击 Hadoop01, 选 择 “ 电 源 ” 列 表 下 的 “关闭 客户 端 "选项 ,完成 上 述 操作 后 对 Hadoop01 
虚拟 机 进行 克隆 操作 ,在 VMware 工具 左 侧 系统 资源 库 中 右键 单 击 Hadoop01, 选 择 “ 管 理 ” 
列表 下 的 “克隆 ”选项 ,弹出 “克隆 虚拟 机 向 导 ” 界 面 ,如 图 2-27 所 示 。 


欢迎 使 用 克隆 虚拟 机 向 导 


如 果 您 想 让 其 他 用 户 创建 此 虚拟 机 的 克隆 ， 


PRO 应 在 -虚拟 机 "> 设置 “> 选项 "> 高 级 下 让 
用 模板 模式 。 


"oe" [ev 此 向 导 将 帮助 您 创建 此 虚拟 机 的 副本 。 


图 2-27 克隆 虚拟 机 向 导 


(2) 在 图 2-27 中 , 单 击 “ 下 一 步 ” 按 钮 ,进入 克隆 源 界面 ， 渤 择 虚 大 卫生 则 可 ， 然后 单 击 
界面 中 的 “下 一 步 ” 按 钮 ,进入 设置 “克隆 类 型 "界面 选择 “创建 完整 克隆 ”选项 ,如 图 2-28 
所 示 。 

(3) 在 图 2-28 中 设置 完 克 隆 类 型 后 , 单 击 “ 下 一 步 ” 按 钮 ,进入 到 “新 虚拟 机 名 称 ” 界 面 ， 
在 该 界面 自 定义 虚拟 机 的 名 称 和 本 地 存放 位 置 .如 图 2-29 所 示 。 

在 图 2-29 中 , 单 击 “ 完 成 ”按钮 就 会 进入 虚拟 机 克隆 过 程 , 稍 等 片刻 后 便 完成 了 虚拟 机 
的 克隆 操作 。 如 果 想 克隆 多 台 虚 拟 机 ,可 以 重复 上 述 操 作 即 可 。 
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克隆 点 洗 
克隆 类 型 
您 希望 如 何 克 隆 此 虚拟 机 ? 
克隆 方法 
创建 捞 接 克隆 (L) 
链接 克隆 是 对 原始 虚拟 机 的 引用 ， 所 需 的 存储 磁盘 空间 较 少 。 但 是 ， 必 须 能 况 
访问 原始 虚拟 机 才能 运行 * 
9 和 建 训 幕 克隆 [日 下 3 
完整 克隆 是 原始 虚拟 机 当前 状态 的 完整 副本 。 此 副本 虚拟 机 完全 独立 ， 但 需要 较 
杀 的 存 信 磁 盘 空间 。 
[CE 上 = 步 四 ][F= 步 加 3 
2-28 ”克隆 类 型 
克隆 虚 氢 
新 虚拟 机 名 称 
您 要 为 此 虚拟 机 使 用 什么 名 称 ? 
虚拟 机 名 称 (Y) 
Hadoop02 
位 置 (L) 
D:\Itcast-Hadoop\Hadoop02 浏览 (8)..… 


图 2-29 新 虚拟 机 名 称 


2.1.2 虚拟 机 网 络 配 置 


前 面 一 节 介 绍 了 虚拟 机 的 安装 和 克隆 ,虽然 安装 的 Hadoop01 虚拟 机 能 够 正常 使 用 ,但 
是 该 虚拟 机 的 IP 是 动态 生成 的 ,在 不 断 的 开关 过 程 中 很 容易 改变 ,非常 不 利于 实际 开发 ;而 
通过 Hadoop01 克隆 的 虚拟 机 (假设 克隆 了 两 个 虚拟 机 Hadoop02 和 Hadoop03) 则 完全 无 
法 动态 分 配 到 IP, 直 接 无 法 使 用 。 因 此 ,还 需要 对 这 三 台 虚 拟 机 的 网 络 都 分 别 进行 配置 。 

接 下 来 ,本 节 将 对 如 何 配 置 虚拟 机 网 络 进行 详细 讲解 (此 处 以 克隆 的 Hadoop02 虚拟 机 
为 例 进行 演示 说 明 ) ,具体 操作 步骤 如 下 。 


1. 主机 名 和 IP 映射 配置 


在 VMware Workstation 中 开启 克隆 的 虚拟 机 Hadoop02, 输 入 root 用 户 的 用 户 名 和 
密码 后 进入 虚拟 机 系统 ,在 终端 窗口 按照 下 列 说 明 进 行 主机 名 和 IP 映射 的 配置 。 
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(1) 配置 主机 名 ,具体 指令 如 下 : 
$ vi /etc/sysconfig/network 


执行 上 述 指令 后 ,在 打开 的 界面 对 HOSTNAME 选项 进行 重新 编辑 ， 


求 进行 主机 名 配置 (此 处 将 Hadoop02 虚拟 机 主机 名 配置 为 hadoop02) ,如 图 2-30 所 示 。 


根据 个 人 实际 需 


Hadoop02 - VMware Workstation 


文件 日 ”篇 绢 日。 坦 看 W 虚拟 机 (M) 远 项 中 午 动 山 | 中 ~ | 号 | 了 岂 | 四 巴 互 及 


上 凤 Hadoop01 

加 Hadoop02 

邑 Hadoop03 
里 共享 的 虚拟 机 


< 
上 要 棕 纹 入 定向 束 诡 虞 拟 机 ， 请 在 碟 拟 机 内 部 单 主 或 按 Ctrl+G。 el ET,Tealln) 


图 2-30 配置 主机 名 


配置 完成 后 保存 network 文件 退出 即 可 。 后 续 演 示 Hadoop 集群 搭建 时 ,会 将 


Hadoop01、Hadoop02、Hadoop03 主机 名 依次 设置 为 hadoop01、hadoop02 
此 在 Hadoop01 和 Hadoop03 中 需 进行 同样 的 配置 主机 名 操作 。 
(2) 配置 IP 映射 。 


和 hadoop03, 因 


配置 IP 映射 ,要 明确 当前 虚拟 机 的 IP 和 主机 名 ,主机 名 可 以 参考 前 面 已 配置 的 主机 
名 ,但 IP 地 址 必须 在 VMware 虚拟 网 络 IP 地 址 范围 内 。 所 以 ,这 里 必须 先 清楚 可 选 的 IP 


地 址 范围 , 才 可 进行 IP 映射 的 配置 。 


单 击 VMware 工具 的 “编辑 "菜单 下 的 “虚拟 网 络 编辑 "菜单 项 ,打开 虚拟 网 络 编辑 器 ; 
接着 ,选中 “NAT 模式 ”类 型 的 VMnet8, 单 击 “DHCP 设置 ”按钮 会 出 现 一 个 “DHCP 设置 


对 话 框 ,如 图 2-31 所 示 。 
从 图 2-31 可 以 看 出 ,此 处 VMware 工具 允许 的 虚拟 机 IP 地 址 可 选 范 


围 (192.168.121. 


128 一 192.168.121.254, 不 同 网 络 可 能 不 同 ) 。 至 此 ,就 明确 了 要 配置 IP 映射 的 IP 地 址 可 选 


范围 ( 且 不 建议 使 用 已 用 IP 地 址 ) 。 


(3) 在 Hadoop02 虚拟 机 中 执行 相关 指令 对 IP 映射 文件 hosts 进行 编辑 ,指令 如 下 。 
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和 = 
| | [phcP 设 辕 x 子 网 地 址 

网 络 : vmneta 启用 二 
| | 子 网 P: 192.168.121.0 2 查看 IP 地 址 192.168.121.0 
| | | 4 
| | | 起 始 卫 地 址 (5): 
| | 结束 了 地 址 @): 
| | | 让 白地 址 : 
| 天 4 时 
| | mA 和 用 时 间 o): [0 图 [ 

最 长 租用 时 间 (M): 图 [ 


O 〇 仅 主机 模式 (在 专用 网 络 内 连接 虚拟 机 ) 人 1) 

回 将 主机 虚拟 适配器 连接 到 此 网络 (V) 
主机 虚拟 适配器 名 称 : VMware 网 络 适配器 VMnet8 

回 使 用 本 地 DHCP 服务 将 玉 地 址 分 配给 虚拟 机 全 ) 


子 网 PO: | 192 .168 .121. 0 子 网 摘 码 M): | 255 .255 .255 . 0 
| wm 确定 了 消 下 用 网 闻 助 | 
2-31 “DHCP 设置 "对 话 框 


$ vi /etc/hosts 


执行 上 述 指 令 后 ,会 打开 一 个 hosts 映射 文件 ,为 了 保证 后 续 相互 关联 的 虚拟 机 能 够 通 
过 主机 名 进行 访问 ,根据 实际 需求 配置 对 应 的 IP 和 主机 名 映射 ,如 图 2-32 所 示 。 


Hadoop02 - VMware Workstation - DO x 


文件 日 ”篇 训 (E) ”查看 VW) 虚拟 机 (M) 远 项 FD 和 助 册 | 下 ~ 呈 | + ES 


吨 Hadoop03 


蛙 共享 的 虚拟 机 


15 
192.168 
192.168 


I< 


库 a > 
他 主页 * | [Hadoop01 
QQ、 在 比 处 键入 内 容 进 行 .。 ~ 
| 日 加 我 的 计算 机 1 localhost localhost.localdomain localhost4 localhost4.1ocaldomai 
加 Hadoopo1 localhost localhost.localdomain localhost6 localhost6.1ocaldomai 
吨 Hadoop02 168.121.134 hadoopBl 


vetcvhosts" 


藉 和 办 入 定向 到 该 虚 拟 机 ， 请 在 虚拟 机 内 部 单 主 或 按 Ctrl+G。 


135 hadoopB2 
136 hadoopB3 


2-32 配置 IP 和 主机 名 映射 
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从 图 2-32 可 以 看 出 ,将 主机 名 hadoop01、hadoop02、hadoop03 分 别 与 IP 地 址 192.168.121. 
134、192.168.121.135 和 192.168.121.136 进行 了 匹配 映射 (这 里 通常 要 根据 实际 需要 ,将 要 搭建 
的 集群 主机 都 配置 主机 名 和 IP 映射 )。 读 者 在 进行 IP 映射 配置 时 ,可 以 根据 自己 的 DHCP 设 
置 和 主机 名 规划 IP 映射 。 这 里 同样 也 需要 将 Hadoop01 和 Hadoop03 两 台 虚 拟 机 进行 同上 
Hadoop02 的 IP 映射 配置 ,以 便于 在 这 两 台 虚 拟 机 中 通过 主机 名 访问 其 他 虚拟 机 。 

小 提示 : 需要 说 明 的 是 ,此 处 的 主机 名 和 IP 映射 配置 并 不 是 Hadoop 集群 搭建 准备 环 
境 的 必需 项 ,读者 也 可 以 不 必 进 行 此 步 操 作 。 只 是 通常 情况 下 ,为 了 更 方便 进行 文件 配置 和 
虚拟 机 联系 ,都 会 进行 主机 名 和 IP 映射 配置 。 


2. 网 络 参数 配置 


上 一 步 中 ,对 虚拟 机 的 主机 名 和 IP 映射 进行 了 配置 ,而 想 要 虚拟 机 能 够 正常 使 用 ,还 需 
要 对 网 络 参数 进行 配置 。 
(1) 修改 虚拟 机 网 卡 配 置 文 件 ,配置 网 卡 设备 的 MAC 地 址 ,具体 指令 如 下 。 


$ vi /etc/udev/rules.d/70- persistent- net.rules 


在 Hadoop02 虚拟 机 中 执行 上 述 指令 后 ,会 打开 当前 虚拟 机 的 网 卡 设 备 参 数 文件 ,如 
图 2-33 所 示 。 


Hadoop02 - VMware Workstation 二 0 演 
文件 四。 并 缠 {E) 吾 看 J) 虚拟 机 M) 选项 + 才 有 m 呈 | 对 > | 马 | 了 只 | 四 局 所 六 | 加 
库 
QQ 在 此 处 好 入 内 容 进行 


9 国 我 的 计算 机 
号 Hadoopo1 
号 Hadoop02 
[是 Hadoop03 
钻 共享 的 虚拟 机 


ATTR{addre 80:0c:29:2f ;bf :4 
KERNEL 


9x168f 
", ATTR{address}=="90:6c:29:43:87:1 


"etc/udev/rules.d/?70-persistent-net.rules" 
ll< > 
匡 构 妨 入 定向 到 友 虚 拟 机 ， 请 在 虚拟 机 内 部 单 主 或 按 Ctrl+G。 局 避风 各 暴 旧 | 口 


2-33 ”网卡 配置 


(2) 在 图 2-33 中 ,由 于 虚拟 机 克隆 的 原因 ,在 Hadoop02 虚拟 机 中 会 有 eth0 和 ethl 两 
块 网 卡 (Hadoop01 虚拟 机 只 有 一 块 eth0 网 卡 ) ,此 处 删除 多 余 的 ethl 网 卡 配 置 ,只 保留 eth0 
一 块 网 卡 ,并 且 修 改 参 数 ATTR{address} 二 二 "当前 虚拟 机 的 MAC 地 址 "( 另 一 种 更 简单 
的 方式 是 ,删除 eth0 网 卡 ,将 ethl 网 卡 的 参数 NAME 王 "ethl "修改 为 NAME 一 "eth0") , 同 
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为 虚拟 机 克隆 的 Hadoop03 也 要 进行 网 卡 配置 的 操作 。 
查看 当前 虚拟 机 的 MAC 地 址 ,右键 单 击 当 前 虚拟 机 的 “设置 "列表 并 选中 “网 络 适 配 
器 ?选项 ,接着 单 击 窗口 右 侧 的 “高 级 ”按钮 ,会 出 现 一 个 新 对 话 框 网 络 适 配器 高 级 设置 ”如 


图 2-34 所 示 。 


区 


硬件 ”选项 
设备 摘要 设备 状态 
站 在 468 回 已 过 接 (O 
a 2 启 Ej8 迫 接 (0) 
局 硬盘 (SCSI) 20 68 一 
3 cD/DVD (IDE) 可 烛 9 洛 | 
者 网 络 适配器 NAT 
US8 控制 器 存在 A be 
风声 卡 自动 稳 。 之 训 (B 不 要 限 司 Wer) 
Ee Bebe = 部 主机 人 人 P 地 址 
数据 包 丢 失 (9%)(P) | 0.0 同 用 共享 的 专用 网络 


传 出 传输 
带宽 (A): 
Kbps(S): 
数据 包 丢失 (%)(L): | 0.0 


下 


MAC 地 址 (M) 


00:0C:29:43:87:13 | 


生成 (6) 


图 2-34 “网 络 适配器 高 级 设置 "对 话 框 


从 图 2-34 可 以 看 出 ,当前 Hadoop02 虚拟 机 的 MAC 地 址 为 00: 0C: 29: 43: 87: 13， 
而 不 同 的 虚拟 机 MAC 地 址 是 唯一 的 。 
(3) 配置 网 卡 文件 设置 静态 IP, 具 体 指令 如 下 。 


$ vi /etc/sysconfig/network- scripts/ifcfg- ethO 


在 Hadoop02 虚拟 机 中 执行 上 述 指 令 后 ,会 打开 虚拟 机 的 人 P 地 址 配置 界面 ,如 图 2-35 所 示 。 

在 如 图 2-35 所 示 的 网 卡 文件 界面 ,根据 需要 通常 要 配置 或 修改 以 下 7 处 参数 。 

@@ ONBOOT= yes: 表示 启动 这 块 网 卡 。 

@ BOOTPROTO==static: 表示 静态 路 由 协议 ,可 以 保持 IP 固定 。 

@@ HWADDR: 表示 虚拟 机 MAC 地 址 ,需要 与 当前 虚拟 机 MAC 地 址 一 致 。 

由 IPADDR: 表示 虚拟 机 的 IP 地 址 ,这 里 设置 的 IP 地 址 要 与 前 面 IP 映射 配置 时 的 IP 
地 址 一 致 ,否则 无 法 通过 主机 名 找到 对 应 IP。 

@ GATEWAY: 表示 虚拟 机 网 关 , 通 常 都 是 将 IP 地 址 最 后 一 个 位 数 变 2。 
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文件 昌 ” 编 强 昌 查看 WW 虚拟 机 (M) ” 运 项 卡 (D 帮助 (H) 


我 的 计算 机 人 
| YPE=Etherne 
[Wy Pdoppot UUID=57fffa06-93d8-4edf -87fc- 
DD Woo ONBOOT=ye 
加 Hadoop03 NM_CONTROLLED=yes 
外 共享 的 虚拟 机 BOOTPROTO=dhcp 


HWADDR=88:8C:29:2F :BF :4B 


PEERROUTES 
IPU4_FAILURE_FATAL=ye: 
IPU6INIT=no 


sysconf ig/network-scripts/ifcfg-ethg” 13L, 2 
I< 
匿 格 输 入 定 向 到 该 虐 拟 机 ， 请 在 志 拟 机 内 部 单 去 或 按 Ctrl+G。 


图 2-35 配置 网 卡 文件 


@ NETMASK: 表示 虚拟 机 子 网 掩 码 ,通常 都 是 255.25: 

@ DNS1: 表示 域名 解析 器 ,此 处 采用 Google 提供 的 免费 DNS 服务 器 8.8.8.8( 也 可 以 
设置 为 PC 对 应 的 DNS) 。 

网 卡 的 具体 配置 ,如 图 2-36 所 示 。 


Hadoop02 - VMware Workstation 


文件 日 ”篇 缉 (E) ”查看 V) 虚拟 机 (M) 选项 上 四 帮助 山 | 则 ”| 名 四 巴 互 到 


日 加 和 的 计算 机 
号 Hadoop01 
号 Hadoop02 
吨 Hadoop03 BOOTPROTO=stat 
钱 共享 的 虚拟 机 A 8:8c 


IPU4_FAI 
IPU6INIT=no 
em ethB” 


sconf ig/network-scripts/ifcfg-ethg” 17L, 2 


芽 格 边 入 定向 到 该 虚拟 机 ， 请 在 志 拟 机 内 部 单 去 或 按 Ctrl+G。 


2-36 ”修改 网 卡 文件 
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上 述 只 是 介绍 了 Hadoop02 虚拟 机 修改 网 卡 文件 .同样 ,Hadoop01 和 Hadoop03 也 要 
进行 网 卡 文件 修改 的 操作 , 同 为 克隆 虚拟 机 的 Hadoop03 与 Hadoop02 操作 方式 相同 。 通 
过 查看 Mac 地 址 进行 修改 .Hadoop01 不 同 于 克隆 机 ,直接 使 用 默认 的 Mac 地 址 即 可 ,注意 
三 台 虚 拟 机 的 IPADDR(IP 地 址 ) 需 根据 IP 映射 文件 中 的 设置 而 修改 。 


3. 配置 效果 验证 


完成 上 述 两 个 步骤 的 操作 后 ,需要 重启 虚拟 机 使 配置 生效 ,这 里 通过 执行 reboot 指令 
重启 系统 。 

系统 重启 完毕 后 ,在 Hadoop02 虚拟 机 上 通过 ifconfig 指令 查看 网 卡 配置 是 否 生 效 , 如 
图 2-37 所 示 。 


Hadoop02 - VMware Workstation 二 一 渣 x 
文件 四。 编 强 旧 查看 MV 虚拟 机 (M) 远 项 DB 由 | 中 | 号 | 了 全 1 四 加 只 忆 | 国 
库 = E 局 局 
Q 一 一” | 合 主 页 x| 号 neaoool 二 Hadoop02 x | [HHadoop03 
在 此 处 键入 内 容 进行 .。 
日 加 和 09 计算 机 
(TD Hadoop01 
加 Hadoopo2 
凤 Hadoop03 
印 共享 的 虚拟 机 Crootehadoope:2 
the L 
i 
i 
255 .9.8.9 
tric:1 
8 overruns;B frame;B 
nsiB carrier:8 
1467446837 (1,3 GiB) 
< > 
要 格 绽 入 定向 到 该 虚拟 机 ， 请 在 虚拟 机 内 部 单 二 或 按 Ctrl+G。 加 局 二 二 和 日 | 口 


图 2-37 ”查看 网 卡 配置 


从 图 2-37 中 看 出 ,Hadoop02 主机 的 IP 地 址 已 经 设置 为 192.168.121.135。 通 过 执行 
ping www.baidu.com 指令 检测 网 络 连接 是 否 正常 (前 提 是 安装 虚拟 机 的 PC 可 以 正常 上 
网 ) ,如 图 2-38 所 示 。 

从 图 2-38 可 以 看 出 ,虚拟 机 能 够 正常 地 接收 数据 ,并 且 延 迟 正常 ,说 明 网 络 连 接 正常 。 
至 此 ,当前 虚拟 机 的 网 络 配置 完毕 。 


2.1.3 SSH 服务 配置 


通过 前 面 的 操作 ,已 经 完成 了 三 台 虚 拟 机 Hadoop01、Hadoop02 和 Hadoop03 的 安装 和 
网 络 配 置 ,虽然 这 些 虚 拟 机 已 经 可 以 正常 使 用 了 .但 是 依然 存在 问题 ,具体 问题 如 下 。 

(1) 实际 工作 中 ,服务 器 被 放置 在 机 房 中 ,同时 受到 地 域 和 管理 的 限制 ,开发 人 员 通 常 
不 会 进入 机 房 直 接 上 机 操作 ,而 是 通过 远程 连接 服务 器 ,进行 相关 操作 。 
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回 Hadoop02 - VMware Workstation 一 口 六 
文件 昌 ”编辑 旧 ”查看 MW 虞 拆 机 (M) 远 项 FD 大妈 由 | 有 ~| 久 | 人 只 | 四 巴 互 六 | 四 
库 


QQ 在 此 处 锭 入 内 容 进行 


日 加 我 的 计算 机 
上 凤 Hadoop01 
呈 Hadoop02 
辐 Hadoop03 
甲 共享 的 虚拟 机 


< 
基 格 输入 定向 到 该 虚拟 机 ， 请 在 志 拟 机 内 部 单 去 或 按 Ctrl+G。 加 名 生意 遇 听 | 口 
图 2-38 检测 网 络 连接 


(2) 在 集群 开发 中 , 主 节点 通常 会 对 集群 中 各 个 节点 频繁 地 访问 ,就 需要 不 断 输入 目标 
服务 器 的 用 户 名 和 密码 ,这 种 操作 方式 非常 麻烦 并 且 还 会 影响 集群 服务 的 连续 运行 。 

为 了 解决 上 述 问题 ,可 以 通过 配置 SSH 服务 来 分 别 实现 远程 登录 和 SSH 免 密 登录 功 
能 。 接 下 来 ,将 分 别 对 这 两 种 服务 配置 进行 详细 讲解 。 


1. SSH 远程 登录 功能 配置 


SSH 为 Secure Shell 的 缩写 , 它 是 一 种 网 络 安全 协议 , 专 为 远程 登录 会 话 和 其 他 网 络 服 
务 提供 安全 性 的 协议 。 通 过 使 用 SSH 服务 .可 以 把 传输 的 数据 进行 加 密 , 有 效 防 止 远程 管 
理 过 程 中 的 信息 泄露 问题 。 

为 了 使 用 SSH 服务 ,服务 器 需要 安装 并 开启 相应 的 SSH 服务 。 在 CentOS 系统 下 ,可 
以 先 执行 “rpm -qa | grep ssh” 指 令 查看 当前 机 器 是 否 安装 SSH 服务 ,同时 使 用 “ps -e | 
grep sshd” 指 令 查 看 SSH 服务 是 否 启动 ,如 图 2-39 所 示 。 

从 图 2-39 可 以 看 出 ,CentOS 虚拟 机 已 经 默认 安装 并 开启 了 SSH 服务 ,所 以 不 需要 进 
行 额外 安装 ,就 可 以 进行 远程 连接 访问 (如 果 没 有 安装 ,CentOS 系统 下 可 以 执行 “yum 
install openssh-server” 指 令 进 行 安 装 )。 

在 目标 服务 器 已 经 安装 SSH 服务 ,并 且 支 持 远 程 连接 访问 后 ,在 实际 开发 中 ,开发 人 员 
通常 会 通过 一 个 远程 连接 工具 来 连接 访问 目标 服务 器 。 本 书 以 一 个 实际 开发 中 常用 的 
SecureCRT 远程 连接 工具 来 演示 远程 服务 器 的 连接 和 使 用 。 

SecureCRT 是 一 款 支 持 SSH 的 终端 仿真 程序 , 它 能 够 在 Windows 操作 系统 上 远程 连 
接 Linux 服务 器 执行 操作 。 本 书 采用 SecureCRT 7.2 版 本 进行 介绍 说 明 , 读 者 可 以 通过 地 
址 https: //www.vandyke.com/download/securecrt/7.2/index.html 自行 下 载 安 装 。 下 载 


库 


QQ 在 此 处 刍 入 内 容 进行 


到 我 的 计算 机 
上 凤 Hadoop01 
加 Hadoop02 
吨 Hadoop03 
甲 共享 的 虚拟 机 


|< 
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回 Hadoop02 - VMware Workstation 一 口 总 
文件 昌 ”编辑 (E) 查看 VW) 虚拟 机 (M) 远 项 ED 帮凶 中 | 有 ”| 名 | 人 全 | 四 回 呈 凡 | 国 


大 格 输入 定向 到 该 虚拟 机 ， 请 在 起 拟 机 内 部 单 去 或 按 Ctrl+G。 


2-39 查看 SSH 服务 


安装 完成 后 ,按照 以 下 操作 进行 远程 连接 访问 。 


(1) 打开 SecureCRT 远程 连接 工具 , 单 击 导 航 栏 上 的 “文件 ”>“ 快 速 连接 ”创建 快速 连 


接 , 并 根据 虚拟 机 的 配置 信息 进行 设置 ,如 图 2-40 所 示 。 


快速 连接 


协议 @): SSH2 ~ 
端 D): |[ 怀 。 ] 。 防 火 寺中 : Nene 
有 Pauw: [root | 
鉴 权 
OES 2 | EG 
回 公 崩 
加 键盘 交互 
回 GssaPT 
口 启动 时 显示 快速 连接 QW) 保存 会 话 W) 
和 夺 标准 页 中 打开 全 
了 


2-40 快速 连接 


在 如 图 2-40 所 示 的 快速 连接 设置 中 ,主要 是 根据 要 连接 远程 服务 器 设置 了 目标 主机 名 


为 192.168.121.135( 即 Hadoop02 虚拟 机 的 IP 地 址 ) 和 登录 用 户 root, 而 其 他 相关 设置 通常 
情况 下 使 用 默认 值 即 可 。 


(2) 设置 完 快速 连接 配置 后 , 单 击 图 2-40 中 的 “连接 ”按钮 ,会 弹出 “新 建 主机 密 钥 ”对 


话 框 ( 主 要 用 于 密 钥 信 息 发 送 确 认 ), 如 图 2-41 所 示 。 
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新 建 主机 定 钥 x 


二 让 192.168.121 135 的 秘 钥 硕 ， 
为 192.168.121.135， 庙 口 22) 
本 1 次 接受 过 主机 192. 168.121.135 的 信息 ， 
这 可 192.168.121.135 是 一 个 解析 到 不 同 主机 的 "别名 "。 


建议 你 在 接受 前 校 验 你 的 主机 密 钥 。 


服务 器 的 主机 密 钥 指纹 (MD5 哈 希 ): 
3d:ea:2f: 49:9c:6F:c7:41:95:71:2b:74: 18:3c:53:9b 


只 接受 一 次 O 其 受 并 保存 GE 


2-41 新 建 主机 密 钥 


(3) 单 击 图 2-41 中 的 “接受 并 保存 "按钮 。 保 存 完毕 后 ,客户 端 需要 输入 目标 服务 器 的 
用 户 名 和 和 密码, 并且 可 以 勾 选 “保存 密码 ”按钮 ,避免 下 次 连接 时 重复 要 求 输入 密码 ,如 图 2-42 
所 示 。 


转 入 安全 外 壳 密 码 x 
a 请 输入 


图 2-42 输入 安全 外 壳 密码 


在 图 2-42 中 ,输入 正确 的 用 户 名 和 密码 后 , 单 击 “ 确 定 ” 按 钮 ,SecureCRT 远程 连接 工具 
就 会 自动 连接 到 远程 目标 服务 器 。 

(4) 待 连接 远程 服务 器 成 功 ,SecureCRT 会 自动 进入 到 Hadoop02 虚拟 机 的 操作 界面 ， 
如 图 2-43 所 示 。 


文件 (月 ” 编 铝 (E) ”查看 (V) ”选项 (O) 传输 (D) 及 本 (S) 工具 (D 窗口 (W) 帮助 (H) 
池 寞 加 组 疯 呈 二 A BA BBS Tt a 

192.168.121.135 x d 
rootehadoopo7 -]# 症 


ssh2: AES-256-CTR 1, 20 23 行 , 80 列 VT100 


图 2-43 ”Hadoop02 虚拟 机 操作 界面 


后 续 就 可 以 像 在 虚拟 机 终端 窗口 一 样 在 SecureCRT 中 操作 虚拟 机 ,其 他 两 个 虚拟 
机 Hadoop01 和 Hadoop03 也 可 以 通过 同样 的 方式 通过 SecureCRT 连接 到 虚拟 机 进行 
操作 。 
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2. SSH 免 密 登录 功能 配置 


前 面 介绍 了 SSH 服务 ,并 实现 了 远程 登录 功能 ,而 想 要 实现 多 台 服 务 器 之 间 的 免 密 登 
录 功 能 还 需要 进一步 设置 。 下 面 就 详细 讲解 如 何 配置 SSH 免 密 登 录 ,具体 如 下 。 

(1) 在 需要 进行 统一 管理 的 虚拟 机 上 (例如 后 续 会 作为 Hadoop 集群 主 节点 的 
Hadoop01) 输 入 “ssh-keygen -t rsa” 指 令 生成 密 钥 ,并 根据 提示 ,不 用 输入 任何 内 容 , 连 续 按 
4 次 Enter 键 确认 即 可 ,效果 如 图 2-44 所 示 。 


A 
& 小 是 


192168.121.134 x 


yn 
enerasing bi rivare rua key pa 

nter FiNe Pn which ro save the Key /root/. ssh/id_rsa): 
lereated directory /toot .ssh 
Enter passphrase (emp for _no passphrase): 

nter Same i again 
vour" 1dene 9 aedon’ Pasobeen saved in 《roetf; ode: 


就 绪 ssh2: AES-256-CTR 1, 20 24 行 1005 VT100 大 写 数字 


图 2-44 生成 密 钥 


运行 完 生 成 密 钥 操 作 后 ,在 当前 虚拟 机 的 root 目录 下 生成 一 个 包含 密 钥 文件 的 .ssh 隐 
藏 目 录 。 进 入 .ssh 隐藏 目录 ,通过 “ll -a” 指 令 查 看 当前 目录 的 所 有 文件 (包括 隐藏 文件 ) ,如 
图 2-45 所 示 。 


a ee 评 电 0， 有 


Toot@hadoop01 J]# cd /root/. ssh/ 
[root@hadoop01 .ssh]# 11 -a 


~ 2 root root 4096 Aug 1 14:20 - 
4 root root 4096 Aug 1 05:49 -- 
。1 root root 1675 Jul 27 01:59 id_rsa 
rw-r--r-—. 1 root root 395 Jul 27 01:59 id_rsa.pub 


[root@hadoop01 .ssh]# 四 


ssh2: AES-256-CTR 8, 23 20 行 , 90 列 VT100 
图 2-45 查看 .ssh 目录 内 容 


了 
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从 图 2-45 中 可 以 看 出 ,.ssh 隐藏 目录 下 有 两 个 文件 ,分 别 是 id_rsa 和 id_rsa.pub 两 个 
文件 ,其 中 ,id_rsa 是 Hadoop01 的 私 钥 ,id_rsa.pub 是 公 钥 。 

(2) 在 生成 密 钥 文件 的 虚拟 机 Hadoop01 上 .执行 命令 “ssh-copy-id hadoop02”, 将 公 钥 
复制 到 需要 关联 的 服务 器 上 (注意 : 包括 本 机 ) ,通过 修改 服务 器 主机 名 来 指定 需要 复制 的 
服务 器 ,例如 ,将 命令 中 的 “hadoop02” 修 改 为 “hadoop01” .如 图 2-46 所 示 。 


文人 月 ” 斩 吉 中 ， 理 看 M， 远 页 O) 信 交 (1) 名 本 (5) 工具 赣 GW)， 大 凤 (H) 
2 BS Ty1 9 国 , | 


The authentgcity of Post 
RSA key fingerprint is ab 75:58:8a:8f:da:35:03:65:82. 

Are you Sure YOU want to co ue connecting (yes/ 

warning: Permanently added “hadoop02,192.168.121.135° (RSA) to the list of known hosts. 
root@hadoop02"s password: 

Now try logging into the machine, with "ssh ‘hadoop02'", and check in: 


168.121.135)’ can't be established. 
3 5:82 


.ssh/authorized_keys 


to make sure we haven't added extra keys that you weren't expecting. 


[root@hadoop01 ~]# [ssh-copy-id hadoop03 
The authenticity of host doop03 (192.168.121.136)' can't be established. 
RSA key fingerprint is ab:49:22:b5:1c:db:44:75:58:8a: 35:03:65:82. 

Are Yo sure you want to continue at (yes nay 

warning: Permanent1y added ‘hadoop03,192.168.121.136° to the 1ist of known hosts. 
root@hadoop03°s password: 

Now try logging into the machine, with "ssh ‘hadoop03'", and check in: 


.ssh/authorized_keys 
to make sure we haven't added extra keys that you weren't expecting. 


[root@hadoopO1 ~]#|ssh-copy-id hadoopOl 

The authenticity of host "hadoop5 .168.121.134)，can'"t be established. 
RSA key fingerprint is ab:49:22:b5:1c:db:44:75:58:8a:8f:da:35:03:65:82. 

Are ol Sure you want to continue ee ng sf 

Warning: Permanent1y added “hadoop01,192.168.121.134” (RSA) to the list of known hosts. 
root@hadoop01"s password: 

Now Try logging into the machine, with "ssh ‘hadoop01'", and check in: 


.ssh/authorized_keys 


to make sure we haven't added extra keys that you weren't expecting. 


就 绪 ssh2: AES-256-CTR 1, 23 38 行 , 1095 VT100 大 写 数字 


图 2-46 复制 公 钥 文件 到 相关 服务 器 


(3) 在 生成 秘 钥 文件 的 虚拟 机 Hadoop01 上 ,执行 相关 指令 将 .ssh 目录 下 的 文件 复制 
到 需要 关联 的 服务 器 上 ,执行 命令 “scp -r /root/.ssh/ * root@hadoop02: /root/.ssh/” 复 制 
文件 到 hadoop02 服务 器 ,通过 修改 服务 器 主机 名 指定 其 他 服务 器 ,如 图 2-47 所 示 。 
文件 (篇 训 (E) ”查看 (V) ”选项 (O) 传 纺 () 脚本 (S) 工具 (WD 窗口 (W) 帮助 (H) 
ES Em Eb. 全 分 怠 号 马 可 东 人 昌国 


192.168.121.134 x 


id_rsa.pub 

known_hosts 

[root@hadoop01 .ssh]# scp -r /root/.ssh/* root@hadoop03:/root/.ssh/ 
ee et eys 

id_rsa 


id_rsa.pub 
known_hosts 
[rootehadoop01 .ssh]# 


ssh2: AES-256-CTR 1, 20 24 行 1005 VT100 


2-47 复制 主机 .ssh 目录 下 文件 到 相关 服务 器 
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通过 上 述 步 又 操作 ,在 相关 联 服务 器 的 任 一 节点 连接 到 其 他 节点 就 不 用 再 输入 密码 进 
行 访问 了 ,例如 , 当 在 hadoop01 主机 上 输入 “ssh hadoop02” 指 令 访 问 hadoop02 主机 时 就 不 
再 需要 输入 密码 了 ,如 图 2-48 所 示 。 


文件 ( ”编辑 (E) 坦 看 (V) ”选项 (O) | 传输 中 | 脚本 (S) 工具 (L) 窗口 (W) 帮助 (H) 
池 风 | 同 | 提 | 观 | 守 二 所 <Alt+R> 忆 感 邹 吕 写 马 村落 9 加 国 s 
192.168.121.134 x |®@192.168.121.135 | @@ 192.168.121.136 


[root@hadoopl!l “J]# ssh hadoop02 
Last login: Thu Aug 1 14:16:38 2019 from hadoop01 
[root@hadoop02“]# 


ssh2: AES-256-CTR 20 11 行 76 列 VT100 T 
2-48 ”验证 免 密 钥 


至 此 完成 所 有 相关 联 节点 的 免 密 钥 操 作 。 


2.2 ”Hadoop 集群 搭建 


在 学 习 和 个 人 开发 测试 阶段 ,可 以 在 虚拟 机 上 安装 多 台 Linux 系统 来 搭建 Hadoop 集 
群 ,前 面 已 经 学 习 了 虚拟 机 的 安装 、 网 络 配 置 以 及 SSH 服务 配置 ,减少 了 后 续集 群 搭建 与 使 
用 过 程 中 不 必要 的 麻烦 ,下 面 就 对 Hadoop 集群 搭建 进行 详细 讲解 。 


2.2.1 JDK 安装 


由 于 Hadoop 是 由 Java 语言 开发 的 ,Hadoop 集群 的 使 用 依赖 于 Java 环境 ,因此 在 安装 
Hadoop 集群 前 ,需要 先 安装 并 配置 好 JDK 。 

接 下 来 ,就 在 前 面 规划 的 Hadoop 集群 主 节点 hadoop01 机 器 上 分 步骤 演示 ,如 何 安装 
和 配置 JDK ,具体 如 下 。 


1. 下 载 JDK 


访问 https: //www. oracle. com/technetwork/java/javase/downloads/java-archive- 
javase8-2177648.html 下 载 Linux 系统 下 的 JDK 安装 包 , 本 书 下 载 的 是 JDK 1.8 版 本 , 即 
jdk-8ul61-linux-x64.tar.gz 安装 包 。 注 : 本 书 会 提供 和 使 用 jdk-8u161-linux-x64.tar.gz 安 
装 包 。 

2. 安装 JDK 


下 载 完 JDK 安装 包 后 , 先 将 JDK 安装 文件 通过 SecureCRT 工具 客户 端的 Hadoop01 
窗口 上 传 到 hadoop01 主机 的 /export/software/( 如 果 系 统 中 没有 该 目录 可 通过 指令 “mkdir 
-p /export/ software/ ”创建 ) 目 录 下 。 
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通过 指令 “cd /export/software/” 进 入 到 /export/software/ 目 录 下 ,在 该 日 录 下 执行 rz 
命令 (注意 : 如 果 系 统 提 示 -bash: rz: command not found 可 以 通过 执行 yum install lrzsz -y 
指令 进行 安装 ) 进 行 上 传 ,双击 要 上 传 的 JKD 安装 文件 , 单 击 “ 确 定 ” 按 钮 进行 上 传 ,如 图 2-49 
所 示 。 


人 @@ 序 巴 国 " 


| 192168121134 x | 


Foot@hadoop01 software]# r 
rz Waiting to receive. 
zmodem trl+C 4& 


jdk-8u161-| 
‘Nux-x64.tar. 


文件 名 (N): 
文件 类 型 四 : 。 “| 所 有 文件 (") 


发 送 的 文件 全: 
D: goft\dk-8u161-inux-x64.tar.gz 


以 ASCI 方式 上 传 文件 W 


图 2-49 上 传 JDK 安装 包 到 服务 器 


将 上 传 到 hadoop01 服务 器 的 JDK 安装 包 解压 到 /export/servers/ 目 录 ( 在 执行 解压 指 
令 前 需要 通过 指令 “mkdir -p /export/servers/” 创 建 该 目录 ) ,具体 指令 如 下 。 


$ tar - zxvf /export/software/jdk- Su161- linux- x64.tar.gz - C 

/export/servers/ 

执行 完 上 述 指 令 , 进 入 到 /export/servers/ 目 录 下 查看 解压 后 的 JDK 安装 包 , 如 果 觉 得 
解压 后 的 文件 名 过 长 ,可 以 对 文件 进行 重 命名 ,这 里 可 以 将 jdk1.8.0_161 重 命 名 为 jdk, 具 体 
指令 如 下 。 


$ mv jdk1.8.0_161/ jdk 


3. 配置 JDK 环境 变量 


安装 完 JDK 后 ,还 需要 配置 JDK 环境 变量 。 使 用 “vi /etc/profile” 指 令 打 开 profile 文 
件 ,在 文件 底部 添加 如 下 内 容 。 


# 配 置 JDK 系统 环境 变量 

export JAVA_HOME= /export/servers/jdk 

export PATH=$ PATH:$ JAVA_HOME/bin 

export CLASSPATH= :$ JAVA_HOME/lib/dtjar:$ JAVA_HOME/lib/tools.jar 
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在 /etc/profile 文件 中 配置 完 上 述 JDK 环境 变量 后 (注意 JDK 路 径 ) ,保存 退出 。 然 后 
执行 source /etc/profile 指令 初始 化 环境 变量 使 配置 文件 生效 。 


4. JDK 环境 验证 
在 完成 JDK 的 安装 和 配置 后 ,为 了 检测 是 否 安装 成 功 , 可 以 输入 如 下 指令 进行 验证 。 


$ java - version 


执行 上 述 指令 后 ,如 果 出 现 如 图 2-50 所 示 结 果 , 则 说 明 JDK 安装 和 配置 成 功 。 


文件 (编辑 (E) ”查看 (V) ”选项 (O) 传 纺 (]) 脱 本 (S) 工具 (0 窗口 (W) 帮助 (H) 
ET 


W192.168.121.134 x | 动 192.168.121.135 | 本 192.168.121.136 dh 


[rootahadoop01“]# java -version ~ 
java version “1.8.0_161 

Java(TID) SE Runtime Environment (build 1.8.0_161-b12) 

Java HotSpot (TM) 64-Bit Server VM (build 25.161-bl2, mixed mode) 

[root@hadoop01 “]# 


就 绪 ssh2: AES-256-CTR 5, 20 15 行 ,91 列 VT100 大 与 数字 


图 2-50 JDK 环境 验证 


至 此 ,Hadoop01 虚拟 环境 中 的 JDK 安装 成 功 , Hadoop02 和 Hadoop03 虚拟 机 中 JDK 
的 安装 会 在 后 续 的 2.2.3 节 中 给 出 快捷 的 安装 方式 。 


2.2.2 ”Hadoop 安装 


Hadoop 是 Apache 基金 会 面向 全 球 开源 的 产品 之 一 ,任何 用 户 都 可 以 从 Apache 
Hadoop 官网 https: //archive.apache.org/dist/hadoop/common/ 下 载 使 用 。 本 书 将 以 编写 
时 较为 稳定 的 Hadoop 2.7.4 版 本 为 例 , 详 细 讲 解 Hadoop 的 安装 。 

将 下 载 的 hadoop-2.7.4.tar.gz 安装 包 上 传 到 主 节点 hadoop01 的 /export/software/ 目 
录 下 ,然后 解压 该 文件 到 /export/servers/ 目 录 , 具 体 指 令 如 下 。 


$ tar - zxvf /export/software/hadoop- 2.7.4.tar.gz - C /export/servers/ 


执行 完 上 述 指令 后 ,同样 通过 “vi /etc/profile” 指 令 打开 profile 文件 ,在 文件 底部 进 一 
步 添加 如 下 内 容 来 配置 Hadoop 环境 变量 。 


# 配 置 Hadoop 系统 环境 变量 
export HADOOP_HOME= /export/servers/hadoop- 2.7.4 
export PATH=$ PATH:$ HADOOP_HOME/bin:$ HADOOP_HOME/sbin 


在 /etc/ 目 录 下 的 profile 文件 中 配置 完 上 述 Hadoop 环境 变量 后 (注意 HADOOP_ 
HOME 路 径 ) ,保存 退出 即 可 。 通 过 执行 source /etc/profile 指令 初始 化 环境 变量 使 配置 文 
件 生效 。 
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安装 完 Hadoop 并 配置 好 环境 变量 后 ,可 以 在 当前 主机 任意 目录 下 查看 安装 的 Hadoop 
版 本 号 ,具体 指令 如 下 。 


$ hadoop version 


执行 完 上 述 指令 后 ,效果 如 图 2-51 所 示 。 


文件 (日 ” 篇 龟 (E] ”查看 (V) ”选项 (O) ”传输 (]) ”脚本 (S) 工具 (W) 窗口 (W) 帮助 (H) 


过 罚 右 下 调和 半 =i =-Ar+R-~ 了 了 的 酝 豆 己 可 站 加 国 
192168.121.134 x | 4 


rootGhadoop0T “J# hadoop version ~ 
Hadoop 2.7.4 

Subversion https://shv@git-wip-us. apache. org/repos/asf/hadoop. git -r cd915ele8d9d0131462a0b7301586c1 
75728a282 

Compiled by kshvachk on 2017-08-01T00: 297 

Compiled with protoc 2.5.0 

Fron source with checksum 50b0468318b4ce9bd24dc467b7cel148 

This conmand was run using /export/servers/hadoop-2.7. 4/share/hadoop/conmon/hadoop-commorr-2.7.4.jar 
[root@hadoop01“]# 用 


就 绪 ssh2: AES-256-CTR 9, 20 26 行 , 1005 VT100 大 写 


图 2-51 Hadoop 版 本 查询 


从 图 2-51 可 以 看 出 ,当前 Hadoop 版 本 为 2.7.4, 证 明 Hadoop 安装 成 功 。 
在 Hadoop 安装 目录 (/export/servers/hadoop-2.7.4) 下 通过 “11” 指 令 查 看 Hadoop 目录 


结构 ,如 图 2-52 所 示 。 

文件 (。 蝙 强 (E) ”查看 (V) 和 运 项 (0) 传输 (]) 鞍 本 (S) 工具 (D 窗口 (W) 帮助 (H) 
辣 罚 加 组 冯 二 LN SEBS T2319 | 
192.168.121.134 x 要 
root@hadoopDl hadoop-2.7. 4]# 11 A 
total 148 
drwxr-xr-x, 2 20415 101 4096 Aug 1 2017 bin 
drwxr-xr-x。 3 20415 101 4096 Aug 1 2017 etc 
drwxr-xr-x。 2 20415 101 4096 hug 1 2017 include 
drwxr-xr-x。 3 20415 101 4096 ug 1 2017 lib 
drwxr-xr-x. 2 20415 101 4096 Aug 1 2017 libexec 
-rwr-- 。 1 20415 101 86424 Aug 1 2017 LICENSE. txt 
drwxr-xr-x。 3 root root 4096 Jul 27 13:54 logs 

。 1 20415 101 14978 Aug 1 2017 NOTICE.txt 
-rw 。 1 20415 101 1366 Aug 1 2017 README.txt 
drwxr-xr-x。 2 20415 101 4096 aug 1 2017 sbin 
drwxr-xr-x。 4 20415 101 4096 ue 1 2017 share 
drwxr-xr-x。19 20415 101 4096 aug 1 2017 src 
drwxr-xr-x。 4 root root 4096 Jul 27 13:54 tap 
[root@hadoop01 hadoop-2.7.4]# 国 

> 

连接 到 远程 主机 ssh2: AES-256-CTR 16, 31 26 行 . 1005 VT100 六 写 数字 


2-52 ”Hadoop 目录 结构 
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从 图 2-52 可 以 看 出 ,Hadoop 安装 目录 包括 bin、etc、include.lib、libexec、sbin、share 和 
src 共 8 个 目录 以 及 其 他 一 些 文件 ,下 面 简单 介绍 下 各 目录 内 容 及 作用 。 

(1) bin: 存放 操作 Hadoop 相关 服务 (HDFS、YARN) 的 脚本 ,但 是 通常 使 用 sbin 目录 
下 的 脚本 。 

(2) etc: 存放 Hadoop 配置 文件 ,主要 包含 core-site.xml、hdfs-site.xml、mapred-site.xml 等 
从 Hadoop 1.0 继承 而 来 的 配置 文件 和 yarn-site.xml 等 Hadoop 2.0 新 增 的 配置 文件 。 

(3) include: 对 外 提供 的 编程 库 头 文件 (具体 动态 库 和 静态 库 在 lib 目录 中 ) ,这些 头 文 
件 均 是 用 C++ 定义 的 ,通常 用 于 C++ 程序 访问 HDFS 或 者 编写 MapReduce 程序 。 

(4) lib: 该 目录 包含 Hadoop 对 外 提供 的 编程 动态 库 和 静态 库 , 与 include 目录 中 的 头 
文件 结合 使 用 。 

(5) libexec: 各 个 服务 器 用 的 shell 配置 文件 所 在 的 目录 ,可 用 于 配置 日 志 输 出 .启动 参 
数 ( 例 如 JVM 参数 ) 等 基本 信息 。 

(6) sbin: 该 目录 存放 Hadoop 管理 脚本 ,主要 包含 HDFS 和 YARN 中 各 类 服务 的 启 
动 /关闭 脚本 。 

(7) share: Hadoop 各 个 模块 编译 后 的 jar 包 所 在 的 目录 。 

(8) src: Hadoop 的 源码 包 。 


2.2.3 Hadoop 集群 配置 


2.2.2 节 仅 进行 了 单机 上 的 Hadoop 安装 ,为 了 在 多 台 机 器 上 进行 Hadoop 集群 搭建 和 
使 用 ,还 需要 对 相关 配置 文件 进行 修改 ,来 保证 集群 服务 协调 运行 。 

Hadoop 默认 提供 了 两 种 配置 文件 : 一 种 是 只 读 的 默认 配置 文件 ,包括 core-default. 
xml、hdfs-default.xml、mapred-default.xml 和 yarn-default. xml, 这 些 文件 包含 Hadoop 系 
统 各 种 默认 配置 参数 ; 另 一 种 是 Hadoop 集群 自 定义 配置 时 编辑 的 配置 文件 (这 些 文件 多 数 
没有 任何 配置 内 容 , 存 在 于 Hadoop 安装 目录 下 的 etc/hadoop/ 目 录 中 ), 包 括 core-site. 
xml、hdfs-site.xml、mapred-site.xml 和 yarn-site. xml 等 ,可 以 根据 需求 在 这 些 文件 中 对 上 
一 种 默认 配置 文件 中 的 参数 进行 修改 ,Hadoop 会 优先 选择 自 定义 配置 文件 中 的 参数 。 

下 面 通过 一 张 表 来 对 Hadoop 集群 搭建 可 能 涉及 的 主要 配置 文件 及 功能 进行 描述 ,如 
表 2-1 所 示 。 


表 2-1 Hadoop 主要 配置 文件 


配置 文件 功能 描述 
hadoop-env.sh 配置 Hadoop 运行 所 需 的 环境 变量 
yarn-env.sh 配置 YARN 运行 所 需 的 环境 变量 
core-site. xml 集群 全 局 参数 ,用 于 定义 系统 级 别 的 参数 ,如 HDFS URL、Hadoop 的 临时 目录 等 
HDFS 参数 ,如 名 称 节点 和 数据 节点 的 存放 位 置 文 件 副本 的 个 数 、 文 件 读 取 的 权 


hdfs-site.xml 


限 等 


MapReduce 参数 ,包括 Job History Server 和 应 用 程序 参数 两 部 分 ,如 reduce 任务 
的 默认 个 数 、 任 务 所 能 够 使 用 内 存 的 默认 上 下 限 等 


mapred-site.xml 


集群 资源 管理 系统 参数 ,配置 ResourceManager、NodeManager 的 通信 端口 , Web 
监控 端口 等 


yarn-site.xml 
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在 表 2-1 中 ,前 两 个 配置 文件 都 是 用 来 指定 Hadoop 和 YARN 所 需 运 行 环 境 ,hadoop- 
env.sh 用 来 保证 Hadoop 系统 能 够 正常 执行 HDFS 的 守护 进程 NameNode、Secondary 
NameNode 和 DataNode; 而 yarn-env.sh 用 来 保证 YARN 的 守护 进程 ResourceManager 和 
NodeManager 能 正常 启动 。 其 他 4 个 配置 文件 都 是 用 来 设置 集群 运行 参数 的 ,在 这 些 配置 
文件 中 可 以 使 用 Hadoop 默认 配置 文件 中 的 参数 进行 配置 来 优化 Hadoop 集群 ,从 而 使 集 
群 更 加 稳定 高 效 。 

Hadoop 提供 的 默认 配置 文件 core-default.xml、hdfs-default. xml、 mapred-default. xml 
和 yarn-default.xml 中 的 参数 非常 多 ,这 里 不 便 一 一 展示 说 明 。 读 者 在 具体 使 用 时 可 以 通 
过 访问 Hadoop 官方 文档 http: //hadoop.apache.org/docs/stable/index.html, 进 入 到 文档 
最 底部 的 Configuration 部 分 进行 学 习 和 查看 。 

接 下 来 ,详细 讲解 通过 3 台 虚 拟 机 部 署 Hadoop 集群 的 配置 ,具体 步骤 如 下 。 


1. 配置 Hadoop 集群 主 节点 


通过 上 述 对 配置 文件 的 功能 描述 ,了 解 到 这 些 配 置 文件 对 于 Hadoop 集群 所 起 到 的 作 
用 , 接 下 来 将 分 步骤 介绍 每 个 配置 文件 需要 设置 的 内 容 。 

1) 修改 hadoop-env.sh 文件 

先进 入 到 主 节点 hadoop01 虚拟 机 的 Hadoop 安装 包 目 录 下 的 etc/hadoop/ 目 录 , 使 用 
“vi hadoop-env.sh” 指 令 打 开 其 中 的 hadoop-env.sh 文件 ,将 文件 内 默认 的 JAVA_HOME 
参数 修改 为 本 地 安装 JDK 的 路 径 , 如 图 2-53 所 示 。 


文件 (有 ”编辑 (E) 查看 V) 选项 (0) 传 绽 ”部 本 (S) 工具 (窗口 (W) 帮助 (H) 
这 型 加 组 阅 竺 和 AR> oN SB TS 9 司 
b 


192.168.121.134 x | 4 


# Set Hadoop-specific environment variables here. 


# The only required environment variable is JAVA_HOME。 All others are 
# optional. When running a distributed configuration it is best to 

# set JAVA_HOME in this file, so that it is correctly defined on 

# remote nodes. 


# The java implementation to use. 
port JAvA FOWL export /sorvers7E] 

# The jsvc implenentation to use, Jsvc is required to run secure datanodes 

# that bind to privileged ports to provide authentication of data transfer 

# protocol. Jsvc is not required if SASL is configured for authentication of 
# data transfer protocol using non-privileged ports. 

Hexport JSYC_HOME=$ {JSYC_HOME} 


export HADOOP_CONF_DIR=$ {HADOOP_CONF_DIR:—“/etc/hadoop”} 


# Extra Java CLASSPATH elements. Automatically insert capacity-scheduler. 
for £ in $HADOOP] de vor jar: do 
if [ “$HADOOP_CLASSPATH” ]; 
export HADOOP. CLASSPATH SADOOP ， CLASSPATH: $£ 
else 
export HADOOP_CLASSPATH=$£ 


就 绪 ssh2: AES-256-CTR 10，1 26 行 , 1005VT100 六 写 数字 
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上 述 配 置 文 件 中 设置 的 是 Hadoop 运行 时 需要 的 JDK 环境 变量 ,目的 是 让 Hadoop 启 
动 时 能 够 执行 守护 进程 。 修 改 yarn-env.sh 文件 类 似 于 修改 hadoop-env.sh 文件 的 方式 , 即 
在 yarn-env.sh 文件 中 添加 JDK 环境 变量 ,具体 如 图 2-54 所 示 。 
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文件 (有 ”编辑 (E) ”查看 (V) ”选项 (O) ”传输 (]) 脚本 (S) 工具 (窗口 (W) 帮助 (H) 
ESTFTEREOR TI BY Wr 央 


192.168.121.134 x 


# User for YARN daemons 
export HADOOP_YARN_USER=$ {HADOOP_YARN_USER: -yarn} 


# resolve links -~ $0 may be a softlink 


export YARN_CONF_DIR="$ {YARN_CONF_DIR:—$HADOOP_YARN_HOME/conf}” 


# sone Java paraneters 

xport JAVA_ Bom expor treor vers7idk | 

1f [ “$JAVA_ HOME” T= "J, then 
Hecho “run java in $JAVA_HOME” 


JAVA_HOME=$JAVA_HONE 
fi 


if [ “$JAVA_HONME” = “” ]; then 
echo "Error: JAVA_HOME is not set.” 
exit 1 


JAVA=$JAVA_HOME/bin/ java 
TAVA_HEAP_NMAX=-Xnx100O0n 


# For setting YARN specific HEAP sizes please use this 


# Paraneter and set appropriately 
# YARN_HEAPSIZE=1000 


ssh2: AES-256-CTR 


8, 


1 


26 行 , 100 允 VT100 


图 2-54 配置 yarn-env.sh 文件 


2) 修改 core-site.xml 文件 


该 文件 是 Hadoop 的 核心 配置 文件 ,其 目的 是 配置 HDFS 地 址 、 端 口号 ,以 及 临时 文件 
目录 。 参 考 上 一 步 ,打开 该 配置 文件 ,添加 如 下 配置 内 容 。 


程 NameNode 运行 主机 (也 就 是 此 次 
行 时 生成 数据 的 临时 目录 。 


<configuration> 
< 上 - - 用 于 设置 Hadoop 的 文件 系统 ,由 URI 指 定 - - > 
< property> 
<name>fs.defaultFS</name> 
< 上 - 用 于 指定 namenode 地 址 在 hadoop01 机 器 上 - - > 
<value> hdfs://hadoop01:9000< /value> 
</property> 
<!- - 配置 Hadoop 的 临时 目录 ,默认 /tmp/hadoop- $ {user.name} - - > 
<property> 
<name> hadoop.tmp.dir< /name> 
<value> /export/servers/hadoop- 2.7.4/tmp</value> 
</property> 
</configuration> 
在 上 述 核心 配置 文件 中 ,配置 了 HDFS 的 主 进 
Hadoop 集群 的 主 节点 位 置 ) ,同时 配置 了 Hadoop 运 
3) 修改 hdfs-site.xml 文件 
该 文件 用 于 设置 HDFS 的 NameNode 和 DataNode 两 大 进程 。 打 开 该 配置 文件 ,添加 
如 下 配置 内 容 。 
<configuration> 


< 上 - 指定 HDFS 副本 的 数量 - -> 
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在 上 述 配置 文件 中 ,配置 了 HDFS 数据 块 的 副本 数量 (默认 值 就 为 3, 此 处 可 以 省 略 )， 
并 根据 需要 设置 了 Secondary NameNode 所 在 服务 的 HTTP 地 址 。 

4) 修改 mapred-site.xml 文件 

该 文件 是 MapReduce 的 核心 配置 文件 ,用 于 指定 MapReduce 运行 时 框架 。 在 etc/ 
hadoop/ 目 录 中 默认 没有 该 文件 ,需要 先 通 过 “cp mapred-site. xml. template mapred-site. 
xml” 命 令 将 文件 复制 并 重 命名 为 “mapred-site.xml”。 接 着 ,打开 mapred-site.xml 文件 进 
行 修改 ,添加 如 下 配置 内 容 。 


在 上 述 配置 文件 中 ,就 是 指定 了 Hadoop 的 MapReduce 运行 框架 为 YARN。 

5) 修改 yarn-site.xml 文件 

本 文件 是 YARN 框架 的 核心 配置 文件 ,需要 指定 YARN 集群 的 管理 者 。 打 开 该 配置 
文件 ,添加 如 下 配置 内 容 。 


在 上 述 配置 文件 中 ,配置 了 YARN 的 主 进程 ResourceManager 运行 主机 为 hadoop01， 
同时 配置 了 NodeManager 运行 时 的 附属 服务 ,需要 配置 为 mapreduce_shuffle 才能 正常 运 
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行 MapReduce 默认 程序 。 

6) 修改 slaves 文件 

该 文件 用 于 记录 Hadoop 集群 所 有 从 节点 (HDFS 的 DataNode 和 YARN 的 
NodeManager 所 在 主机 ) 的 主机 名 ,用 来 配合 一 键 启动 脚本 启动 集群 从 节点 (并 且 还 需要 保 
证 关联 节点 配置 了 SSH 免 密 登录 )。 打 开 该 配置 文件 ,删除 文件 中 默认 存在 的 内 容 ( 默 认 
localhost) 后 ,配置 如 下 内 容 。 


hadoop01 
hadoop02 
hadoop03 


在 上 述 配置 文件 中 ,配置 了 Hadoop 集群 所 有 从 节点 的 主机 名 为 hadoop01、hadoop02 
和 hadoop03( 这 是 因为 此 次 在 该 3 台 机 器 上 搭建 Hadoop 集群 ,同时 前 面 的 配置 文件 hdfs- 
site.xml 指定 了 HDFS 服务 副本 数量 为 3) 。 


2. 将 集群 主 节点 的 配置 文件 分 发 到 其 他 子 节点 


完成 Hadoop 集群 主 节 点 hadoop01 的 配置 后 ,还 需要 将 系统 环境 配置 文件 ,JDK 安装 
目录 和 Hadoop 安装 目录 分 发 到 其 他 子 节点 hadoop02 和 hadoop03 上 (注意 : 需 提前 在 这 
两 个 分 发 的 节点 上 创建 /export/servers/ 目 录 ) ,具体 指令 如 下 。 


$scp /etc/profile hadoop02:/etc/profile 
$scp /etc/profile hadoop03:/etc/profile 
$ scp - r /export/servers/ hadoop02:/export/ 
$ scp - T /export/servers/ hadoop03:/export/ 


执行 完 上 述 所 有 指令 后 ,还 需要 在 其 他 子 节点 hadoop02、hadoop03 上 分 别 执行 “source 
/etc/profile” 指 令 初 始 化 环境 变量 刷新 配置 文件 。 

至 此 ,整个 集群 所 有 节点 就 都 有 了 Hadoop 运行 所 需 的 环境 和 文件 , Hadoop 集群 也 就 
安装 配置 完成 。 在 2.2.4 节 中 ,将 对 此 次 安装 配置 的 集群 进行 安装 校 验 ,确认 Hadoop 集群 
的 正常 运行 。 

2.2.4 Hadoop 集群 测试 


在 2.2.3 节 中 对 Hadoop 相关 配置 文件 进行 了 修改 ,为 了 验证 集群 服务 能 否 正 常 协调 运 
行 ,本 节 将 通过 一 系列 操作 对 集群 进行 测试 ,保证 Hadoop 集群 正常 运行 。 


1. 格式 化 文件 系统 


通过 前 面 小 节 的 学 习 , 已 经 完成 了 Hadoop 集群 的 安装 和 配置 。 此 时 还 不 能 直接 启动 
集群 ,因为 在 初次 启动 HDFS 集群 时 ,必须 对 主 节点 进行 格式 化 处 理 , 具 体 指 令 如 下 。 


$ hdfs namenode - format 


或 者 


ES 
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$ hadoop namenode - format 


执行 上 述 任意 一 条 指令 都 可 以 对 Hadoop 集群 进行 格式 化 。 执 行 格式 化 指令 后 ,必须 
出 现 successfully formatted 信息 才 表 示 格 式 化 成 功 , 如 图 2-55 所 示 ,格式 化 成 功 后 就 可 以 
正式 启动 集群 了 ;和 否则 ,就 需要 查看 指令 是 否 正确 ,或 者 检查 之 前 Hadoop 集群 的 安装 和 配 
置 是 否 正确 。 


文件 (有 ” 编 强 (E) 坦 看 (V) ”选项 (O) 传 缩 (1 ”脚本 (S) 工具 (LW) 窗口 (W) 帮助 (H) 


EE me AtR | 
192168121.134 x | 4b 
19707727 12:18:42 INFO nanenode. FSInage: Allocated new BlockPoolId: BP-1641145016-192.168.121.134-1564201122000 ~ 


19/07/27 12: 18: 42 INFO common. Storage: Storage directory /export/servers/hadoop-2.7.4/tnp/dfs/nane has been 
fully formatted. 
TTT; nro nanenode. FsInageFornatProtobut: Saving inage file /export/servers/hadoop-2.7.4/tap/dfs/nane/ 
current/fsinage, ckpt_0000000000000000000 using no compression 

19/07/27 12: 18: 42 INFO nanenode. FSInageFornatProtobuf: Inage file /export/servers/hadoop-2.7.4/tnp/dfs/nane/current 
/fsinage. ckpt_0000000000000000000 of size 321 bytes saved in 0 seconds. 

19/07/27 12: 18: 42 INFO nanenode. NNStorageRetentionllanager: Going to retain 1 inages with txid )= 0 

19/07/27 12: 18: 42 INFO util. ExitUtil: Exiting with status 0 

19/07/27 12: 18: 42 INFO nanenode. NaneNode: SHUTDOWN_MSG: 

/来 襟 玉 训 于 玉 尝 案 这 襟 兴 尖 守 训 素 当 尝 训 这 这 这 率 率 刘 兴 守 刘 达 闪 宕 于 认 守 罕 守 素 当 罕 守 计 束 夺 训 灰 革 

SHUTDOWN_MSG; Shutting dow NaneNode at hadoop01/192.168.121.134 


就 绪 ssh2: AES-256-CTR 1, 20 26 行 , 1185 VT100 太 写 数字 


2-55 格式 化 文件 系统 


另外 需要 注意 的 是 ,上 述 格式 化 指令 只 需要 在 Hadoop 集群 初次 启动 前 执行 即 可 ,后 续 
重复 启动 就 不 再 需要 执行 格式 化 了 。 


启动 和 关闭 Hadoop 集群 


针对 Hadoop 集群 的 启动 ,需要 启动 内 部 包含 的 HDFS 集群 和 YARN 集群 两 个 集群 框 
架 。 启 动 方式 有 两 种 : 一 种 是 单 节 点 逐个 启动 , 另 一 种 是 使 用 脚本 一 键 启动 。 

1) 单 节 点 逐个 启动 和 关闭 

单 节点 逐个 启动 的 方式 ,需要 参照 以 下 方式 逐个 启动 Hadoop 集群 服务 需要 的 相关 服 
务 进 程 , 具 体 步 又 如 下 。 

(1) 在 主 节 点 上 执行 以 下 指令 启动 HDFS NameNode 进程 。 


$ hadoop- daemon.sh start namenode 
(2) 在 每 个 从 节点 上 执行 以 下 指令 启动 HDFS DataNode 进程 。 

$ hadoop- daemon.sh start datanode 

(3) 在 主 节点 上 执行 以 下 指令 启动 YARN ResourceManager 进程 。 
$ yarn- daemon.sh start resourcemanager 

(4) 在 每 个 从 节点 上 执行 以 下 指令 启动 YARN NodeManager 进程 。 


$ yarn- daemon.sh start nodemanager 
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(5) 在 规划 节点 hadoop02 执行 以 下 指令 启动 SecondaryNameNode 进程 。 


$ hadoop- daemon.sh start secondarynamenode 


上 述 介绍 了 单 节 点 逐个 启动 和 关闭 Hadoop 集群 服务 的 方式 。 另 外 , 当 需 要 停止 相关 
服务 进程 时 ,只 需要 将 上 述 指令 中 的 start 更 改 为 stop 即 可 。 

2) 脚本 一 键 启动 和 关闭 

启动 集群 还 可 以 使 用 脚本 一 键 启动 ,前 提 是 需要 配置 slaves 配置 文件 和 SSH 免 密 登 
录 ( 例 如 ,本 书 采 用 hadoop01、hadoop02、hadoop03 三 台 节 点 ,为 了 在 任意 一 台 节 点 上 执行 
脚本 一 键 启动 Hadoop 服务 ,那么 就 必须 在 三 台 节点 包括 自身 节点 均 配 置 SSH 双向 免 密 
登录 )。 

使 用 脚本 一 键 启动 Hadoop 集群 ,可 以 选择 在 主 节点 上 参考 如 下 方式 进行 启动 。 

(1) 在 主 节点 hadoop01 上 执行 以 下 指令 启动 所 有 HDFS 服务 进程 。 


$ start- dfs.sh 
(2) 在 主 节点 hadoop01 上 执行 以 下 指令 启动 所 有 YARN 服务 进程 。 
$ start- yarn.sh 


上 述 使 用 脚本 一 键 启动 的 方式 , 先 启动 集群 所 有 的 HDFS 服务 进程 ,再 启动 所 有 的 
YARN 服务 进程 ,整个 Hadoop 集群 的 服务 就 启动 完成 了 。 

另外 ,还 可 以 在 主 节 点 hadoop01 上 执行 start-all.sh 指令 ,直接 启动 整个 Hadoop 集群 
服务 。 不 过 在 当前 版 本 已 经 不 再 推荐 执行 该 指令 启动 Hadoop 集群 了 ,并 且 执 行 这 种 指令 
启动 服务 会 有 警告 提示 。 

同样 , 当 需 要 停止 相关 服务 进程 时 ,只 需要 将 上 述 指令 中 的 start 更 改 为 stop 即 可 ( 即 
使 用 stop-dfs.sh .stop-yarn.sh 来 关 停 服务 ) 。 

在 整个 Hadoop 集群 服务 启动 完成 之 后 ,可 以 在 各 自 机 器 上 通过 jps 指令 查看 各 节点 的 
服务 进程 启动 情况 ,分 别 如 图 2-56 一 图 2-58 所 示 。 


文件 病 得 E， 坦 看) 运 项 (0) 传 纺 () 膀 本 (S) 工具 (WD 窗口 (WW) 帮助 (H) 
ES Tm .< :BN BES TS 0: 


192.168.121.134 Xx | 192.168.121.135 | 7 192.168.121.136 
root@hadoopll J]# jps 


6794 Nodeltanager 
6699 Resourcellanager 
6333 NaneNode 

[root@hadoop01“]# 四 


就 洁 ssh2: AES-256-CTR 。 了 20 13 行 72 列 VT100 


2-56 ”hadoop01 集群 服务 进程 
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文件 (月 ”篇 各 (E) 坦 看 (V) 选项 [O) 传 给 (]) 膀 本 (S$) 工具 (窗口 (W) 帮助 (H) 


EE] Ee. ns Er Wp 
W192.168.121,134 | WY 192.168.121.135 x | 192.168.121,136 所 
[root@hadoop02 ~]# jps 
51064 Jps 


2922 DataNode 
3003 SecondaryNaneNode 
3068 Nodelfanager 
[root@hadoop02“]# 四 


连接 到 远程 主机 ssh2: AES-256-CTR 6 20 13 行 ,72 列 VT100 
2-57 ”hadoop02 集群 服务 进程 


文件 (月 ” 编 轧 (E) ”查看 (V) ”选项 (O) ”传输 (D) 脱 本 (S) 工具 (LD) 窗口 (W) 帮助 (H) 
ETT 


«7 192.168.121.134 | 7 192.168.121.135 | w 192.168.121.136 x 


[root@hadoop03 “]# jps 
9860 Jps 

9721 NodeManager 

2636 DataNode 
[root@hadoop03“]# 国 


ssh2: AES-256-CTR 5, 20 13 行 72 列 VT100 
图 2-58 ”hadoop03 集群 服务 进程 


从 图 2-56 一 图 2-58 可 以 看 出 , hadoop01 节点 上 启动 了 NameNode、DataNode、 
ResourceManager 和 NodeManager 个 服务 进程 ; hadoop02 上 启动 了 DataNode、 
NodeManager 和 SecondaryNameNode 三 个 Hadoop 服务 进程 ; hadoop03 上 启动 了 
DataNode 和 NodeManager 两 个 服务 进程 ,说明 Hadoop 集群 启动 正常 。 

注意 : 读者 在 进行 前 面 Hadoop 集群 的 配置 和 启动 时 ,可 能 会 出 现 例如 NodeManager 
进程 无 法 启动 或 者 启动 后 自动 结束 的 情况 ,此 时 可 以 Hadoop 安装 目录 中 logs 目录 下 的 
yarn-root-nodemanager-hadoop01.log 日 志文 件 ( 哪 台 未 启动 查看 哪 台 的 日 志文 件 ) ,如 果 出 
现 “ NodeManager from hadoop01 doesn't satisfy minimum allocations, Sending 
SHUTDOWN signal to the NodeManager.” 这 样 的 错误 ,主要 是 因为 系统 内 存 和 资源 分 配 
不 足 。 此 时 ,可 以 参考 在 所 有 节点 的 yarn-site.xml 配置 文件 中 添加 如 下 参数 进行 适当 调 
整 。 调 整 完成 后 ,停止 Hadoop 集群 服务 ,删除 Hadoop 安装 目录 中 的 tmp 和 1logs 文件 夹 ， 
重新 进行 格式 化 操作 指令 “hadoop namenode -format”。 


<Pproperty> 
< 上 - - 定义 NodeManager 上 要 提供 给 正在 运行 的 容器 的 全 部 可 用 资源 大 小 - - > 
<name> yarn.nodemanager.resource.memory- mb< /name> 
<value>2048</value> 
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</property> 

<Pproperty> 
<!- - NodeManager 可 以 分 配 的 CPU 核 数 - - > 
<name> yarn.nodemanager resource.cpu- vcores< /name> 
<value> 1</value> 


</property> 

上 述 配置 文件 中 ,yarn.nodemanager.resource.memory-mb 表示 该 节点 上 NodeManager 
可 使 用 的 物理 内 存 总 量 ,默认 是 8192(MB) ,如 果 节点 内 存 资源 不 够 8GB, 则 需要 适当 调整 
yarn.scheduler. minimum-allocation-mb 表示 每 个 容器 可 申请 的 最 少 物 理 内 存量 ,默认 是 
1024(MB) ; yarn.nodemanager.resource.cpu-vcores 表示 NodeManager 总 的 可 用 虚拟 CPU 
核 数 。 


2.2.5 通过 UI 界面 查看 Hadoop 运行 状态 


Hadoop 集群 正常 启动 后 , 它 默认 开放 了 两 个 端口 50070 和 8088 ,分 别 用 于 监控 HDFS 
集群 和 YARN 集群 。 通 过 UI 界 面 可 以 方便 地 进行 集群 的 管理 和 查看 ,只 需要 在 本 地 操作 
系统 的 浏览 器 中 输入 集群 服务 的 IP 和 对 应 的 端口 号 即 可 访问 。 

为 了 后 续 方 便 查看 ,可 以 在 本 地 宿主 机 的 hosts 文件 (Windows 7 操作 系统 下 路 径 为 
C:; \Windows\System32\drivers\etc) 中 添加 集群 服务 的 IP 映射 ,具体 内 容 示 例如 下 (读者 
需要 根据 自身 集群 构建 进行 相应 的 配置 )。 


192.168.121.134 hadoop01 
192.168.121.135 hadoop02 
192.168.121.136 hadoop03 


想 要 通过 外 部 UI 界面 访问 虚拟 机 服务 ,还 需要 对 外 开放 配置 Hadoop 集群 服务 端口 
。 这 里 ,为 了 后 续 学 习 方便 ,就 直接 将 所 有 集群 节点 防火 墙 进行 关闭 即 可 ,具体 操作 


由 


在 所 有 集群 节点 上 执行 如 下 指令 关闭 防火 二 

$service iptables stop 

在 所 有 集群 节点 上 执行 如 下 指令 禁止 防火 墙 开 机 启动 。 
$ chkconfig iptables off 


执行 完 上 述 所 有 操作 后 ,再 通过 宿主 机 的 浏览 器 分 别 访问 http: //hadoop01: 50070 
(集群 服务 IP 十 端口 号 ) 和 http: //hadoop01: 8088 查看 HDFS 和 YARN 的 Web UI 界面 ， 
分 别 如 图 2-59 和 图 2-60 所 示 。 

从 图 2-59 和 图 2-60 可 以 看 出 ,Hadoop 集群 的 HDFS 和 YARN 的 UI 界面 访问 正常 ， 
证 明 Hadoop 集群 运行 正常 ,在 UI 界面 可 以 更 方便 地 进行 集群 状态 管理 和 查看 。 


LE 
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Namenode information 


拟 ) 了 1 G 会 @ hadoop01:50070/dfshealth him 
妇 最 党 访问 _ 国 火狐 记 方 站 点 ” 避 新 手 上 路 “ 国 第 用 网 址 


Overview Datanodes Datanode Volume Failures Snapshot Startup Progress 


Utilities 


Overview 'hadoop01:9000' (active) 


Started: Sat Jul 27 13:53:49 CST 2019 

Version: 2.7.4, rcd915ele8d9d0131462a0b7301586c175728a282 
Compiled: 2017-08-01T00:29Z by kshvachk from branch-2.7.4 
Cluster ID: CID-ef6bcf92-53d1-4130-9b85-327f6ba142b0 

Block Pool ID: BP-120342974-192.168.121.134-1564206817345 


图 2-59 ”HDFS 的 Web UI 界面 


x 
(€)>C 合 @ hadoop01:8088/cluster 二 跟 … 会 | | Q a N40m+»e = 
人 炊 最 沼 访 问 国 | 火狐 计 方 站 点 者 新 手 上 路 国 | 时 有 网址 虽 袍 动 版 书签 


EGG All Applications 


Cluster Metrics 


Apps © Apps Apps Apps Containers Memory Memory Memory VCores vcores Vcored 
Submitted Pending Running Completed Running Used Total Reserved Used Total Reserve| 
加 0 0 0 0 0B 4GB 0B 0 2 0 
Scheduler Metrics 

Scheduler Type Scheduling Resource Type Minimum Allocation| 
| capacity Scheduler [MEMORY] <memory:1024, vCores:1> 
Sho D n 


Usei Si 


0 Name? ”Application Type + Queue $ Startfime > FinishTime $ 
No data available in table 


tate Finalstatus 


图 2-60 YARN 的 Web UI 界面 


2.3 Hive 安装 


2.3.1 Hive 的 安装 模式 


Hive 的 安装 模式 分 为 三 种 ,分 别 是 嵌入 模式 、 本 地 模式 和 远程 模式 。 下 面 针 对 这 三 种 
模式 进行 介绍 。 
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(1) 嵌入 模式 : 使 用 内 嵌 的 Derby 数据 库存 储 元 数据 ,这 种 方式 是 Hive 的 默认 安装 方 
式 , 配 置 简单 ,但 是 一 次 只 能 连接 一 个 客户 端 ,适合 用 来 测试 ,不 适合 生产 环境 。 

(2) 本 地 模式 : 采用 外 部 数据 库存 储 元 数据 ,该 模式 不 需要 单独 开启 Metastore 服务 ， 
因为 本 地 模式 使 用 的 是 和 Hive 在 同一 个 进程 中 的 Metastore 服务 。 

(3) 远程 模式 : 与 本 地 模式 一 样 ,远程 模式 也 是 采用 外 部 数据 库存 储 元 数据 。 不 同 的 
是 ,远程 模式 需要 单独 开启 Metastore 服务 ,每 个 客户 端 都 在 配置 文件 中 配置 连接 该 
Metastore 服务 。 远 程 模式 中 ,Metastore 服务 和 Hive 运行 在 不 同 的 进程 中 。 


2.3.2 Hive 的 安装 


本 地 和 远程 模式 安装 配置 方式 大 致 相同 ,本 质 上 是 将 Hive 默认 的 元 数据 存储 介质 由 
自 带 的 Derby 数据 库 蔡 换 为 MySQL 数据 库 , 这 样 无 论 在 任何 目录 下 以 任何 方式 启动 
Hive, 只 要 连接 的 是 同一 台 Hive 服务 ,那么 所 有 节点 访问 的 元 数据 信息 是 一 致 的 ,从 而 实 
现 元 数据 的 共享 。 下 面 就 以 本 地 模式 为 例 , 在 Hadoop01 虚拟 机 中 讲解 安装 过 程 。 

本 地 模式 的 Hive 安装 主要 包括 两 个 步 又: 安装 MySQL 服务 和 安装 Hive。 具 体 步骤 
如 下 。 


1. 安装 MySQL 服务 


MySQL 安装 方式 有 许多 种 ,可 以 直接 解压 安装 包 进 行 相关 配置 ,也 可 以 选择 在 线 安 
装 ,本 节选 用 在 线 安装 MySQL 方式 。 在 线 安装 MySQL 的 具体 指令 和 说 明 如 下 。 


/下 载 安装 MySQL 

$ yum install mysql mysql- server mysql- devel - y 
/启动 MySQL 服务 

$ /etc/init.d/mysqld start 

/WMySQL 连接 并 登录 MySQL 服务 

$ mysql 


上 述 指令 中 ,通过 执行 yum install 命令 下 载 并 安装 MySQL 程序 ,并 且 启 动 MySQL 服 
务 , 待 服务 启动 完成 后 使 用 MySQL 命令 连接 到 MySQL 客户 端 。 

进入 MySQL 客户 端 后 ,分 别 对 MySQL 数据 库 密码 进行 修改 (可 选 ), 并 设置 允许 远程 
登录 权限 ,具体 指令 如 下 。 


/修改 登录 MySQL 用 户 名 及 密码 

mysql> USE mysql: 

mysql> UPDATE user SET Password=PASSWORD('123456) WHERE user= root: 
/设置 允许 远程 登录 

mysql>GRANT ALL PRIVILEGES ON *.* TO root@% IDENTIFIED BY 
"123456 WITH GRANT OPTION: 

/使 更 新 的 权限 表 加 载 到 内 存 中 

mysql> FLUSH PRIVILEGES: 


验证 上 一 步 中 MySQL 的 用 户 密码 是 否 设置 成 功 ,在 MySQL 的 命令 行 中 输入 exit 指 
令 退 出 当前 登录 ,此 时 在 Shell 中 通过 输入 mysql 指令 则 无 法 直接 连接 并 登录 MySQL 服 


45 
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务 , 需 通 过 输入 如 下 指令 mysql -u root -p 指定 用 户 和 密码 连接 并 登录 MySQL 服务 ,如 图 2-61 
所 示 。 


i 


日 
[root@hadoop01“]## clear 
[root@hadoopO! “]#[rnysal] 

ERROR 1045 (28000), Access denied for user ’root’@’ localhost” (using password: NO) 


8 WFQL nonitor。 Commands end with ; or \g. 
Your MySQL connection id is 433 
Server version: 5. 1.73 Source distribution 


Copyright (c) 2000, 2013, Oracle and/or its affiliates. All rights reserved. 
Oracle is a registered tradenark of Oracle Corporation and/or its 
affiliates. Other nanes nay be trademarks of their respective 


owmers, 


Type 'help:’ or ’\h’ for help. Type ’\c’” to clear the current input statement. 


< 


就 绪 ssh2: AES-256-CTR = 17,8 29 行 ,1105VT100 大 写 数字 ,| 


2-61 登录 MySQL 服务 


2. 安装 Hive 


在 Apache 镜像 网 站 下 载 Linux 下 的 Hive 安装 包 ( 本 次 教材 使 用 1.2.1 版 本 ) ,下 载 地 
址 : http: //archive.apache.org/dist/hive/hive-1.2.1/。 下 载 完毕 后 ,将 安装 包 apache-hive- 
1.2.1-bin.tar.gz 上 传 至 Linux 系统 中 (通过 上 一 节 中 Hadoop 安装 使 用 到 的 rz 命令 进行 上 
传 ) 的 /export/software 文件 夹 下 ,将 压缩 包 解 压 至 /export/servers 文件 夹 下 ,命令 如 下 。 


$ tar - zxvf /export/software/apache- hive- 1.2.1- bin tar.gz 
- C /export/servers/ 


此 时 进入 到 Hive 安装 目录 的 bin 目录 下 ,通过 输入 指令 “./hive” 便 可 启动 Hive 程序 ， 
如 图 2-62 所 示 。 

然而 Hive 处 于 幅 入 模式 ,使 用 的 是 内 由 Derby 数据 库存 储 元 数据 , 当 退 出 Hive 客户 
端 时 会 发 现 ,在 当前 路 径 下 默认 生成 了 derby.log 文件 .该 文件 是 记录 用 户 操作 Hive 的 日 志 
文件 ,由 于 嵌入 模式 元 数据 不 会 共享 ,那么 在 其 他 路 径 下 打开 Hive 客户 端 会 创建 新 的 
derby.log 文件 ,因此 上 一 客户 端 进行 的 任何 操作 当前 用 户 均 无 法 访问 。 


3. Hive 的 配置 


通过 Hive 配置 文件 将 Hive 默认 的 元 数据 存储 介质 由 自 带 的 Derby 数据 库 蔡 换 为 
MySQL 数据 库 。 
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文件 (前 ” 编 铝 (E) 坦 看 (V) 选项 (O) 传 纺 (]) 脚本 (S) 工具 (WD 窗口 (W) 帮助 (H) 
这 加 加 外 汶 = |BASBSTSt | 
192.168.121.134 x > 央 2 


[root@hadoop01 bin]# pwd 


/export/servers/apache-hive-!1.2. 1-bin/bin 
[root@hadoop01 bin]# ./hive 


Logging initialized using configuration in jar:file:/export/servers/apache-hive-1.2.1-bin/1ib/hive-comon-1.2. 
1. jar! /hive-log4j. properties 
hive> 


就 绪 ssh2: AES-256-CTR 7, 7 29 行 , 1105 VT100 大 写 数字 


图 2-62 启动 Hive 程序 


(1) 修改 hive-env.sh 配置 文件 ,配置 Hadoop 环境 变量 。 


进入 Hive 安装 目录 下 的 conf 文件 夹 , 将 hive-env.sh.template 文件 进行 复制 ,然后 重 


命名 为 hive-env.sh, 具 体 指 令 如 下 。 


$ cd /export/servers/apache- hive- 1.2.1- bin/conf 
$ cp hive- env.sh.template hive- env.sh 


修改 hive-env.sh 配置 文件 ,添加 Hadoop 环境 变量 ,如 图 2-63 所 示 , 具 体内 容 如 下 。 


export HADOOP_HOME= /export/servers/hadoop- 2.7.4 


文件 ( 闪 ”编辑 (E) ”查看 (V) 和 远 项 (0) 传 纺 () 脚本 (S) 工具 (L) 窗口 (W) 帮助 (H) 


EE Mos 下 
192168.121.134 x db 


# export HADOOP_OPTS=" $HADOOP_OPTS -XX:NewRatio=12 -XmslOm -XX: MaxHeapFreeRatio=40 -XX:MinHeapFreeRatio=15 ~ 
—XX: +UseParNewGC -XX:-UseGCOverheadLinmit” 
# else 
Eb export HADOOP_OPTS="$HADOOP_OPTS -XX:NewRatio=12 -XmslOm -XX: MaxHeapFreeRatio=40 -XX:MinHeapFreeRatio=15 
—XX: -UseGCOverheadLimit” 

ti 


The heap size of the jvm stared by hive shell script can be controlled via: 
export HADOOP_HEAPSIZE=1024 
Larger heap size may be required when running queries over large number of files or partitions. 


By default hive shell scripts use a heap size of 256 (MB). Larger heap size would also be 
appropriate for hive server (hwi etc). 


Set HADOOP_HOME to point to a specific hadoop install directory 
HADOOP_HOME=$ {bin}/. .7. .Ahadoop 


Hive Configuration Directory can be controlled by 
export HIVE_CONF_DIR= 


EE 


Folder containing extra ibraries required for hive conpilation/execution can be controlled by 
export HIVE_AUX_JARS_PATH= 


lexport HADOOP_HOME=/export/servers/hadoop-: 
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2-63 ”修改 hive-env.sh 配置 文件 


技 持 
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上 述 操作 是 设置 Hadoop 环境 变量 ,作用 是 无 论 系统 是 否 配置 Hadoop 环境 变量 ,在 
Hive 执行 时 ,一 定 能 够 通过 hive-env.sh 配置 文件 去 加 载 Hadoop 环境 变量 ,由 于 在 部 署 
Hadoop 集群 时 已 经 配置 了 全 局 Hadoop 环境 变量 ,因此 也 可 以 不 设置 该 参数 。 

(2) 添加 hive-site.xml 配置 文件 ,配置 MySQL 相关 信息 。 

由 于 Hive 安装 目录 下 的 conf 目录 中 没有 提供 hive-site.xml 文件 ,这 里 需要 在 conf 目 
录 下 使 用 指令 “vi hive-site.xml” 创 建 并 编辑 一 个 hive-site.xml 配置 文件 ,添加 的 内 容 如 下 。 


<configuration> 

<Pproperty> 
<name> javaxjdo.option.ConnectionURL< /name> 
<value> jdbc:mysql://localhost:3306/hive? 

createDatabaselfNotExist=true< /Walue> 

<description> MySQL 连接 协议 </description> 

</property> 

<Property> 
<name>javax.jdo.option.ConnectionDriverName< /name> 
<value> com.mysqlijdbc Driver< /value> 
<description>JDBC 连接 驱动 </description> 

</property> 

<property> 
<name>javax.jdo.option.ConnectionUserName< /name> 
<value>root</value> 
<description> 用 户 名 </description> 

</property> 

<property> 
<name>javax.jdo.option.ConnectionPassword< /name> 
<value> 123456< /value> 
<description> 密码 </description> 

</property> 

</configuration> 


完成 配置 后 , Hive 会 把 默认 使 用 Derby 数据 库 方式 所 覆盖 。 需 要 注意 的 是 ,由 于 使 用 
了 MySQL 数据库, 那么 就 需要 上 传 MySQL 连接 驱动 的 JAR 包 到 Hive 安装 目录 下 的 lib 
文件 夹 下 ,本 教材 使 用 mysql-connector-java-5.1.32.jar, MySQL 驱动 包 的 下 载 地 址 https: 
//mvnrepository. com/artifact/mysql/mysql-connector-java/5. 1. 32, 在 /export/servers/ 
apache-hive-1.2.1-bin/lib 目录 下 使 用 rz 命令 上 传 即 可 。 至 此 就 完成 了 本 地 模式 的 安装 。 

如 果 使 用 远程 模式 的 安装 方式 ,只 需要 将 hive-site.xml 配置 文件 中 的 localhost 修改 为 
具有 MySQL 服务 的 节点 了 了 即 可 ,这 样 无 论 用 户 通 过 什么 路 径 启动 Hive 客户 端 ,都 可 以 访 
问 相 同 的 元 数据 信息 。 

小 提示 : 为 了 便于 启动 Hive 程序 ,不 用 每 次 都 进入 到 Hive 安装 目录 的 bin 目录 下 ,可 
以 将 Hive 的 环境 变量 添加 到 /etc 目录 下 的 profile 文件 中 ,之 后 就 可 以 在 任意 目录 下 通过 
hive 指令 启动 Hive 程序 。 具 体 配置 内 容 如 下 所 示 。 


export HIVE_HOME= /export/servers/apache- hive- 1.2.1- bin 
export PATH=$ PATH:$ HIVE_HOME/bin 
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(3) 验证 Hive 是 否 将 默认 使 用 Derby 数据 库 改 为 MySQL 数据 库 。 
进入 MySQL 数据 库 , 输 入 查看 数据 库 的 指令 show databases 来 查看 MySQL 中 的 所 
有 数据 库 , 可 以 发 现在 数据 库 列表 中 多 出 一 个 hive 名 称 的 数据 库 , 这 个 数据 库 就 是 用 于 储 


存 Hive 的 元 数据 信息 ,如 图 2-64 所 示 。 


文件 (日 ”篇 铝 (E) ”查看 (V) 选项 (D) 传 边 (T 膀 本 (S) 工具 (W) 窗口 (W) 帮助 (H) 
EE TT d 
192.168.121.134 x db 
[root@hadoop01“] 裤 mysql -u root -p ~ 
Enter password: 
welcome to the MySQL monitor. Commands end with ; or \g. 
Your MySQL connection id is 33 
Server version: 5.1.73 Source distribution 
[Copyright (c) 2000, 2013, Oracle and/or its affiliates. All rights reserved. 
Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
omers. 
Type "help:” or '\h’ for help. Type "\c” to clear the current input statement. 
Inysql>| show databases; 
| Database | 

ER + 
| information_schema | 
I[hive | 
| nysaT | 
| test | 
二 ------------------- 十 
4 rows in set (0.00 sec) 

v 
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图 2-64 查看 MySQL 数据 库 


此 时 在 启动 Hive 的 目录 下 就 不 会 再 生成 derby.log 文件 。 


2.4 ”Sqoop 安装 

Sqoop 的 安装 配置 非常 简单 ,前 提 是 部 署 Sqoop 工具 的 机 器 需要 具备 Java 和 Hadoop 
的 运行 环境 。 本 书 将 采用 编写 时 稳定 版 本 Sqoop 1.4.6 来 讲解 Sqoop 的 安装 配置 ,下 载 地 址 
http: //archive.apache.org/dist/sqoop/1.4.6/ ,安装 包 名 称 为 sqoop-1.4.6.bin__hadoop-2.0. 


4-alpha.tar.gz。 
1. Sqoop 安装 


在 export/software 目录 下 通过 执行 rz 指令 将 下 载 好 的 安装 包 上 传 至 hadoop01 主 节 
点 的 /export/software 目录 中 ,并 解压 至 /export/servers 路 径 下 ,对 解压 后 的 文件 夹 进行 重 


命名 ,具体 指令 如 下 。 


$ tar - zxvf /export/software/sqoop- 1.4.6.bin__hadoop- 2.0.4- alphatar.gz 
- C /export/servers/ 
$ mv sqoop- 1.4.6bin__hadoop- 2.0.4- alpha/ sqoop- 14.6 
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执行 完 上 述 Sqoop 的 下 载 解 压 后 ,就 完成 了 Sqoop 的 安装 。 通 过 在 Sqoop 安装 目录 的 
bin 目录 下 执行 “./sqoop help” 命 令 查看 Sqoop 的 可 用 命令 ,如 图 2-65 所 示 。 


文件 (。 编 强 (E) | 查看 (V) | 选项 (O) ”传输 (]) 脚本 (S) 工具 (0 窗口 (W) 帮助 (H) 


光 国 同 组 六 | 二 二 <At+R> | 当 邓 摇 吕 写 YD "| 
S192.168.121.134 x db 


[root@hadoopOl bin]# 
Warning: /export/servers/sqoop-T. 4.6/../hbase does not exist! HBase imports will fail. 
Please set $HBASE_HOME to the root of your HBase installation. 

Warning: /export/servers/sqoop-!1.4.6/../hcatalog does not exist! HCatalog jobs will fail. 
Please set $HCAT_HOME to the root of your HCatalog installation. 

Warning: /export/servers/sqoop-1. 4.6/../accunulo does not exist! Accumulo imports will fail. 
Please set $ACCUMULO_HOME to the root of your Accumulo installation. 

Warning; /export/servers/sqoop-!1. 4.6/../zookeeper does not exist! Accumulo imports will fail. 
Please set $700KEEPER HOME to the root of your Zookeeper installation. 

19/07/31 16:04:51 INFO sqoop.Sqoop; Rumning Sqoop version: 1.4.6 

usage; sqoop CONMAND [ARGS] 


Available commands 
codegen Generate code to interact with database records 
create-hive-table Import a table definition into Hive 
eval Evaluate a SQL statement and display the results 
export Export an HDFS directory to a database table 
help List available commands 
import Inport a table fron a database to HDFS 
import-all-tables Inport tables fron a database to HDFS 
import-mainfrane 。 Import datasets from a nainfrane server to HDFS 
job Work with saved jobs 
list-databases List available databases on a server 
list-tables List available tables in a database 
merge Merge results of incremental imports 
metastore Run a standalone Sqoop metastore 
Version Display version information 


ssh2: AES-256-CTR 


27, 22 27 行 , 1105 VT100 


2-65 ”查看 Sqoop 命令 


从 图 2-65 可 以 看 出 ,运行 Sqoop 命令 时 出 现 的 一 些 Warning 警告 可 以 忽略 不 计 , 这 里 
只 是 提醒 我 们 没有 安装 指定 的 一 些 软 件 ,例如 HBase、ZooKeeper 等 。 


2. Sqoop 配置 


通过 配置 Sqoop 配置 文件 设置 Hadoop 和 Hive 的 安装 目录 来 指定 Hadoop 和 Hive 的 
运行 环境 。 

(1) 先进 入 Sqoop 安装 目录 中 的 conf 文件 夹 目 录 下 ,执行 cp 指令 将 sqoop-env- 
template.sh 文件 复制 并 重 命名 为 sqoop-env.sh, 在 该 文件 中 添加 如 下 内 容 。 


export HADOOP_COMMON_HOME= /export/servers/hadoop- 2.74 
export HADOOP_MAPRED_HOME= /export/servers/hadoop- 2.7.4 
export HIVE_HOME= /export/servers/apache- hive- 1.2.1- bin 


修改 后 的 sqoop-env.sh 文件 效果 如 图 2-66 所 示 。 

在 图 2-66 中 的 sqoop-env.sh 配置 文件 中 ,需要 配置 的 是 Sqoop 运行 时 必 备 环境 的 安装 
目录 ,Sqoop 运行 在 Hadoop 之 上 ,因此 必须 指定 Hadoop 环境 。 另 外 ,在 配置 文件 中 还 可 以 
根据 需求 自 定义 配置 HBase、Hive 和 ZooKeeper 等 环境 变量 ,如 果 某 些 程序 的 环境 变量 未 
配置 ,使 用 过 程 中 可 能 会 出 现 警 告 提示 ,但 不 影响 其 他 操作 。 

小 提示 : 需要 说 明 的 是 ,本 书 讲解 的 Hadoop 是 Apache 社区 版 本 ,Hadoop 重要 的 组 件 
都 是 安装 在 一 个 安装 包 中 ,所 以 上 述 配置 文件 中 配置 的 HADOOP_COMMON_HOME 与 
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文件 ( 昌 。 编 吉 昌吉 看 V) 选 页 (O) 传 给 脚本 (S) 工具 (0 窗口 IW) 帮助 (H) 
EE .id BM BS Tt 9 


192.168.121.134 x 


?| = 
RT 


口 

# Unless required by applicable law or agreed to in writing, software 

# distributed under the License is distributed on an “AS IS” BASIS, 

# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or inplied. 
# See the License for the specific language governing pernissions and 

# limitations under the License. 

# included in all the hadoop scripts with source command 

# should not be executable directly 

# also should not be passed any argunents, since we need original $* 


# Set Hadoop-specific environment variables here. 

HSet path to where bin/hadoop is available 

[export HADOOP_COMION_HOME=/export/servers/hadoop-2. 7.4 
i 

|export HADOOP_MAPRED_HOME=/export/servers/hadoop-2. 7.4 


#set the path to where bin/hbase is available 
#export HBASE_HOME= 


HSet the path to Where bin/hive is available 
[export HIVE_HOME=/export/servers/apache-hive-1. 2. 1-bin | 


Wset the path for where zookeper config dir is 


就 绪 ssh2: AES-256-CTR 26, 1 27 行 , 1105 VT100 大 写 数字 


2-66 ”修改 sqoop-env.sh 文件 


HADOOP_MAPRED_ HOME 指定 的 Hadoop 安装 目录 一 致 。 如 果 使 用 第 三 方 的 
Hadoop, 这 些 组 件 都 是 可 选择 配置 的 ,那么 这 两 个 路 径 可 能 会 有 所 不 同 。 

(2) 为 了 后 续 方 便 Sqoop 使 用 和 管理 ,可 以 配置 Sqoop 系统 环境 变量 。 使 用 “vi /etc/ 
profile” 指 令 进 入 到 profile 文件 ,并 添加 Sqoop 系统 环境 变量 ,具体 如 下 。 


export SQOOP_HOME= /export/servers/sqoop- 1.4.6 
export PATH=$ PATH:$ SQOOP_HOME/bin: 
配置 完成 后 直接 保存 退出 ,接着 执行 source /etc/profile 指令 初始 化 环境 变量 刷新 配置 


文件 即 可 。 

(3) 当 完 成 前 面 Sqoop 的 相关 配置 后 ,还 需要 根据 所 操作 的 关系 型 数据 库 添加 对 应 的 
JDBC 驱动 包 , 用 于 数据 库 连 接 。 本 书 将 针对 MySQL 数据 库 进行 数据 迁移 操作 ,所 以 需要 
将 mysql-connector-java-5.1.32.jar( 版 本 可 以 自行 选择 ) 包 上 传 至 Sqoop 解压 包 目 录 的 lib 


文件 夹 下 。 

3. Sqoop 效果 测试 

执行 完 上 述 Sqoop 的 安装 配置 操作 后 ,就 可 以 执行 Sqoop 相关 指令 来 验证 Sqoop 的 执 
行 效果 了 ,具体 指令 如 下 (此 次 在 Sqoop 的 解压 包 下 执行 ,同时 注意 数据 库 密码 ) 。 


$ sqoop list- databases \ 
- connect jdbc:mysql://localhost:3306/ \ 
- - username root - - password 123456 
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上 述 指令 中 ,sqoop list-databases 用 于 输出 连接 的 本 地 MySQL 数据 库 中 的 所 有 数据 
库 ,如 果 正 确 返 回 指定 地 址 的 MySQL 数据 库 信 息 , 则 说 明 Sqoop 配置 完毕 。 
执行 上 述 指令 后 ,终端 效果 如 图 2-67 所 示 。 


文件 (| 编 强 (E) 坦 看 (V) 选项 (O) 传 纺 (]) 及 本 (S) 工具 (窗口 (W) 帮助 (H) 
过 玉 品 二 将 过 和 =W <AkrR> 总 写 扑 名 台 怠 玉江 加 | 


4b 


192.168.121.134 x 
[root@hadoopOl lib]# sqoop list-databases -connect jdbc-mysql://localhost:3306/ ~—usernane root -password 1234 人 
56 


Warning: /export/servers/sqoop-1.4.6/../hbase does not exist! HBase imports will fail. 
Please set $HBASE_HOME to the root of your HBase installation. 

Warning: /export/servers/sqoop-!1.4.6/../hcatalog does not exist! HCatalog jobs will fail. 

Please set $HCAT_HOME to the root of your HCatalog installation。 

Warning: /export/servers/sqoop-!. 4.6/../accunulo does not exist! Accumulo inports will fail. 

Please set $ACCUMULO_HOME to the root of your Accunulo installation. 

Warning: /export/servers/sqoop-1.4.6/../zookeeper does not exist! Accumulo inports will fail, 

Please set $700KEEPER_HOME to the root of your Zookeeper installation. 

19/07/27 19: 49: 28 INFO sqoop.Sqoop: Running Sqoop version- 1.4.6 

19/07/27 19: 49: 28 WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P 


instead. 
19/07/27 19: 49:28 INFO nanager. NySQLNanager: Preparing to use a JySQL streaning resultset. 
information_schema 
ive 

sql 

est 
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图 2-67 ”Sqoop 验证 效果 


从 图 2-67 可 以 看 出 ,执行 完 上 述 指令 后 ,通过 Sqoop 成 功 查询 出 连接 的 MySQL 数据 


库 中 的 所 有 数据 库 名 ,说 明成 功 地 安装 和 配置 了 Sqoop。 
至 此 ,本 书 中 整个 项 目的 大 数据 集群 环境 搭建 完成 ,后 续 将 在 此 环境 中 利用 这 些 大 数据 


技术 实现 招聘 网 站 职位 分 析 。 
小 结 


本 章 主要 讲解 了 大 数据 集群 环境 的 搭建 ,包括 虚拟 机 的 创建 .CentOS 操作 系统 的 安 
装 .CentOS 操作 系统 的 基本 配置 及 基本 命令 的 使 用 方法 、Hadoop 集群 搭建 及 常用 操作 命 
令 、Hive 安装 配置 及 HSQL 的 使 用 方法 、Sqoop 安装 配置 及 基本 操作 、MySQL 的 安装 及 简 
单 操作 。 通 过 本 章 的 学 习 , 读 者 可 搭建 起 基本 的 大 数据 实验 环境 ,为 开展 后 续 的 项 目 内 容 黄 


定 基础 。 


学 习 目标 
。 了 解 HTTP; 
。 了 解 疏 虫 的 基本 原理 ; 


。 掌握 HDFS API 的 基本 使 用 ; 

。 熟悉 HttpClient 爬虫 的 使 用 方法 。 

在 大 数据 时 代 背 景 下 ,未 被 使 用 的 信息 比例 高 达 99.4% ,原因 很 大 程度 都 是 由 于 高 价值 
的 信息 无 法 获取 采集 。 因 此 ,如 何 从 大 数据 中 采集 出 有 用 的 信息 已 经 是 大 数据 发 展 的 关键 
因素 之 一 ,数据 采集 可 视 为 大 数据 产业 的 基石 。 

数据 是 开展 本 书 项 目 重要 的 基础 ,本 章 将 以 怜 虫 的 方式 讲述 如 何 使 用 Java 工具 获取 网 
络 数据 。 


3.1 -知识 概要 

在 编写 数据 采集 程序 前 , 先 对 网 络 数 据 采 集 所 涉及 的 知识 点 做 简单 介绍 ,以 奠定 网 络 数 
据 采 集 的 基础 知识 。 
3.1.1 数据 源 分 类 


确定 数据 采集 的 数据 源 是 数据 处 理 成 功 的 关键 因素 ,也 是 数据 分 析 的 基础 。 数 据 源 作 
为 数据 处 理 的 最 底层 ,主要 有 三 大 类 数据 ,分 别 是 系统 日 志 、 网 络 数据 和 数据 库 数据 ,关于 这 
三 类 数据 的 采集 介绍 如 下 。 


1. 系统 日 志 采 集 


许多 公司 的 业务 平台 每 天 都 会 产生 大 量 的 日 志 数据 。 由 这 些 日 志 信息 ,我 们 可 以 得 到 
很 多 有 价值 的 数据 。 通 过 对 这 些 日 志 信 息 进行 采集 ,并 对 采集 的 数据 进行 数据 分 析 ,可 以 控 
据 出 公司 业务 平台 日 志 数 据 中 的 潜在 价值 。 

2. 网 络 数 据 采 集 


通过 网 络 疏 虫 和 一 些 网 站 平台 提供 的 公共 API( 如 Twitter 和 新 浪 微 博 API) 等 方式 来 
获取 网 站 上 的 数据 ,从 而 可 以 将 网 页 中 的 非 结 构 化 数据 和 半 结 构 化 数 从 网 页 中 提取 出 来 , 通 
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过 清洗 和 转换 操作 得 到 结构 化 的 数据 ,然后 存储 为 结构 统一 的 本 地 文件 数据 。 
3. 数据 库 采集 


一 些 企业 会 使 用 传统 的 关系 型 数据 库 MySQL 和 Oracle 等 来 存储 数据 。 除 此 之 外 ， 
NoSQL 数据 库 Redis 和 MongoDB 也 常用 于 数据 的 采集 。 大 多 数 的 企业 后 台 几 乎 每 时 每 
刻 都 会 产生 业务 数据 ,这 些 业 务 数据 会 以 数据 库 一 行 记录 的 形式 被 直接 写 入 到 数据 库 中 。 
通过 数据 库 采集 系统 直接 与 企业 业务 后 台 服 务 器 结合 ,将 企业 业务 后 台 每 时 每 刻 都 在 产生 
大 量 的 业务 记录 写 人 到 数据 库 中 ,最 后 由 特定 的 处 理 分 析 系 统 进行 系统 分 析 。 

本 章 将 网 络 数据 作为 数据 源 , 通 过 提取 、 清 洗 和 转换 操作 ,得 到 结构 化 数据 ,后 续 将 以 这 
些 结构 化 数据 为 基础 进行 数据 分 析 。 


3.1.2 HTTP 请求 过 程 


在 浏览 器 中 输入 一 个 URL 链接 便 可 以 在 浏览 器 页 面 中 浏览 该 URL 的 页 面 内 容 。 从 
输入 URL 链接 到 浏览 页 面 内 容 ,整个 过 程 是 通过 浏览 器 向 网 站 所 在 服务 器 发 送 了 一 个 
HTTP 请 求 ,请 求 头 会 包含 一 些 这 个 请 求 的 信息 ,服务 器 接收 到 请 求 后 进行 处 理 和 解析 , 返 
回 一 个 HTTP 响应 ,浏览 器 接收 返回 的 响应 ,响应 中 包含 页 面 的 源 代码 等 内 容 ,浏览 器 接收 
到 响应 后 对 其 内 容 进 行 解析 ,最 终 将 网 页 内 容 呈 现在 浏览 器 窗口 中 ,如 图 3-1 所 示 。 


输 发 送 HTIP 请 求 下 
URL HTTP 
地 SS a 请 


响应 HTTP 请 求 
客户 器 服务 器 
图 3-1 HTTP 请 求 过 程 


在 Chrome 浏览 器 中 ,通过 按 F12 键 进入 开发 者 模式 ,查看 Network 一 栏 中 请 求 页 面 
的 详细 内 容 ,如 图 3-2 所 示 。 
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图 3-2 ”请求 页 面 的 详细 内 容 


从 图 3-2 中 可 以 看 出 ,General 部 分 包含 5 个 参数 ,具体 介绍 如 下 。 


(1) Request URL 参数 : 请 求 的 URL 地 址 。 

(2) RequestMethod 参数 : 请 求 方法 。 

(3) Status Code 参数 : 响应 状态 码 。 

(4) Remote Address 参数 : 远程 服务 器 的 地 址 和 端口 号 。 

(5) Referrer Policy 参数 : Referrer 判别 策略 指定 该 请 求 是 从 哪个 页 面 跳 转 来 的 , 常 被 
用 于 分 析 用 户 来 源 等 信息 。 

在 图 3-2 中 有 ResponseHeaders 和 RequestHeaders 两 部 分 内 容 , 它 们 分 别 代 表 响 应 头 
和 请 求 头 。 请 求 头 里 带 有 许多 请 求 信 息 ,例如 浏览 器 标识 .Cookies、Host 等 信息 ,服务 器 会 
根据 请 求 头 内 的 信息 判断 请 求 是 否 合法 ,进而 做 出 对 应 的 响应 ,响应 中 包含 服务 器 的 类 型 、 
文档 类 型 .日 期 等 信息 ,浏览 器 接收 到 响应 后 ,会 解析 响应 内 容 , 进 而 呈现 网 页 内 容 。 接 下 
来 ,将 对 HTTP 请 求 和 响应 进行 详细 介绍 。 


1. HTTP 请 求 


HTTP 请 求 由 客户 端 向 服务 端 发 出 ,可 以 分 为 4 部 分 内 容 : 请 求 方法 (Request 
Method) .请求 的 网 址 (Request URL) .请 求 头 (Request Headers) ,请 求 体 (Request Body)。 

(1) 请 求 方法 。 

常见 的 请 求 方法 分 为 两 种 : GET 请 求 和 POST 请 求 。 

在 浏览 器 的 地 址 栏 中 直接 输入 URL 链接 可 当 作 发 起 一 次 GET 请 求 ,GET 请 求 的 参 
数 会 包含 在 URL 链接 中 。 例 如 ,在 百度 中 搜索 Java, 链 接 则 变 为 https://www.baidu.com/ 
s? wd 二 Java, 其 中 ,URL 中 包含 请 求 的 参数 信息 ,wd 代表 要 检索 的 关键 字 。POST 请 求 多 
用 于 表单 提交 ,例如 ,注册 用 户 时 ,输入 用 户 名 、 密 码 和 手机 号 等 信息 后 , 单 击 “注册 ”按钮 ,这 
时 客户 端 通常 会 向 服务 端 发 起 一 个 POST 请 求 ,这 些 数据 通常 以 表单 的 形式 传输 ,而 不 会 
出 现在 URL 中 。 

综 上 所 述 ,在 安全 性 方面 ,POST 请 求 的 安全 性 比 GET 请 求 要 高 很 多 ,通过 GET 请 求 
提交 的 数据 ,用 户 名 和 密码 都 将 会 以 明文 的 方式 出 现在 URL 之 中 ,假如 注册 界面 被 浏览 器 
缓存 ,你 的 账号 密码 就 可 以 通过 查看 浏览 器 历史 记录 被 别人 获取 到 。 然 而 POST 请 求 则 可 
以 避免 出 现 这 种 情况 。 

(2) 请 求 的 网 址 : 指 请 求 地 址 的 URL 链接 。 

(3) 请 求 头 。 

HTTP 请 求 头 是 指 在 超 文 本 传输 协议 的 请 求 消息 中 协议 头 部 分 的 组 件 。HTTP 请 求 
头 用 来 准确 描述 正在 获取 的 资源 .服务 器 或 者 客户 端的 行为 ,定义 了 HTTP 事务 中 的 具体 
操作 参数 。 下 面 介绍 一 些 常见 的 HTTP 请 求 头 。 

@@ Accept: 请 求 报头 域 ,用 于 指定 客户 端 可 接受 哪些 类 型 的 信息 。 

@ Accept-Language: 指定 客户 端 可 接受 的 语言 类 型 。 

@ Accept-Encoding: 指定 客户 端 可 接受 的 内 容 编码 。 

@ Host: 用 于 指定 请 求 资源 的 主机 IP 和 端口 号 ,其 内 容 为 请 求 URL 的 原始 服务 器 或 
网 关 的 位 置 。 从 HTTP1.1 版 本 开始 ,请求 必须 包含 此 内 容 。 

@ Cookie: 也 常用 复数 形式 Cookies, 这 是 网 站 为 了 辨别 用 户 进行 会 话 跟踪 而 存储 在 用 
户 本 地 的 数据 。Cookie 的 主要 功能 是 维持 当前 访问 会 话 。 
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@ Referrer: 主要 用 于 标识 请 求 是 从 哪个 页 面 发 过 来 的 ,服务 器 获取 到 这 一 信息 ,做 相 
应 的 处 理 , 例 如 ,对 来 源 统计 和 防盗 链 进行 处 理 操作 。 

@ 〇 User-Agent: 简称 UA, 它 是 一 个 特殊 的 字符 串 头 , 可 以 使 服务 器 识别 客户 使 用 的 操 
作 系 统 及 版 本 、 浏 览 器 及 版 本 等 信息 。 在 做 候 取 数据 时 加 上 此 信息 ,可 以 伪装 为 浏览 器 ;如 
果 不 加 ,很 可 能 会 被 识别 为 息 取 数据 。 

图 Content-Type: 也 叫 互联 网 媒体 类 型 (Internet Media Type) 或 者 MIME 类 型 ,在 
HTTP 消息 头 中 , 它 用 来 表示 具体 请 求 中 的 媒体 类 型 信息 。 例 如 ,text/html 代表 HTML 
格式 ,image/gif 代表 GIF 图 片 ,application/json 代表 JSON 类 型 ,更 多 对 应 关系 可 以 查看 
此 对 照 表 ,对 照 表 的 网 址 为 http: //tool.oschina.net/commons。 

因此 ,请 求 头 是 请 求 的 重要 组 成 部 分 ,在 写 疏 虫 时 ,大 部 分 情况 下 都 需要 设 定 请 求 头 。 

(4) 请 求 体 。 

请 求 体 通常 出 现在 POST 请 求 中 ,用 于 存放 POST 请 求 中 的 表单 数据 ,而 对 于 GET 请 
求 而 言 ,请 求 体 为 空 。 


2. HTTP 响应 


HTTP 响应 由 服务 器 返回 给 全 客户 端 ， 可 以 分 为 三 :部 分 : 响应 状态 码 (Response Status 
Code) .响应 头 (Response Headers) 和 响应 体 (Response Body) , 接 下 来 对 这 三 部 分 内 容 进行 
详细 讲解 。 

1) HTTP 响应 状态 码 

HTTP 响应 状态 码 表示 服务 器 返回 给 客户 端的 响应 状态 ,例如 ,常见 的 响应 代码 200 
代表 服务 器 正常 响应 ,404 代表 页 面 未 找到 ,500 代表 服务 器 内 部 发 生 错误 等 ,更 多 HTTP 
响应 代码 可 通过 https://tool.lu/httpcode/ 进 行 查看 。 在 怜 虫 中 ,可 以 根据 状态 码 来 判断 服 
务 器 响应 状态 ,如 状态 码 200, 则 证 明成 功 返 回 数据 。 

2) 响应 头 

响应 头 包含 服务 器 对 客户 端 请 求 的 应 答 信 息 ,如 Content-Type、Server、Set-Cookie 等 。 
下 面 介 绍 一 些 常见 的 HTTP 响应 头 。 

(1) Date: 标识 响应 产生 的 时 间 。 

(2) Content-Encoding: 指定 响应 内 容 的 编码 。 

(3) Server: 包含 服务 器 的 信息 ,例如 名 称 、 版 本 号 

(4) Content-Type: 文档 类 型 ,指定 返回 的 数据 类 型 是 什么 ,如 text/html 代表 返回 
HTML 文档 ,application/x-javascript 代表 返回 JavaScript 文件 ,image/jpeg 则 代表 返回 
图 片 。 

(5) Set-Cookie: 设置 HTTP Cookie。 

(6) Expires: 指定 响应 的 过 期 时 间 , 可 以 使 代理 服务 器 或 浏览 器 将 加 载 的 内 容 更 新 到 
缓存 中 ,如 果 再 次 访问 时 ,就 可 以 直接 从 缓存 中 加 载 ,降低 服务 器 负载 ,缩短 加 载 时 间 。 

(7) Content-Language: 响应 体 的 语言 。 

3) 响应 体 

最 重要 的 当 属 响 应 体 的 内 容 了 。 响 应 的 正文 数据 都 在 响应 体 中 ,例如 请 求 网 页 时 , 它 的 
响应 体 就 是 网 页 的 HTML 代码 ;请 求 一 张 图 片 时 , 它 的 响应 体 就 是 图 片 的 二 进 制 数据 。 我 


们 做 疏 虫 请 求 网 页 后 ,要 解析 的 内 容 就 是 响应 体 。 
3.1.3 认识 HttpClient 


HttpClient 是 Apache Jakarta Common 下 的 子 项 目 , 用 来 提供 高 效 的 .最 新 的 、 功 能 丰 
富 的 支持 HTTP 的 客户 端 编程 工具 包 ,并 且 它 支持 HTTP 最 新 的 版 本 和 建议 。HttpClient 
已 经 应 用 在 很 多 的 项 目 中 ,例如 Apache Jakarta 上 很 著名 的 另外 两 个 开源 项 目 Cactus 和 
HTMLUnit 都 使 用 了 HttpClient 。 

使 用 HttpClient 发 送 请 求 .接收 响应 很 简单 ,一 般 需 要 如 下 几 步 。 

(1) 创建 HttpClient 对 象 。 

(2) 创建 请 求 方法 的 实例 ,并 指定 请 求 URL。 如 果 需 要 发 送 GET 请 求 ,创建 HttpGet 
对 象 ;如 果 需 要 发 送 POST 请 求 , 创 建 HttpPost 对 象 。 

(3) 如 果 需 要 发 送 请 求 参 数 , 可 调用 HttpGet、HttpPost 共同 的 setParams 
(HttpParams params) 方 法 来 添加 请 求 参 数 ;对 于 HttpPost 对 象 而 言 , 也 可 调用 setEntity 
(HttpEntity entity) 方 法 来 设置 请 求 参数 。 

(4) 调用 HttpClient 对 象 的 execute(HttpUriRequest request) 发 送 请 求 ,该 方法 返回 
一 个 HttpResponse。 

(5) 调用 HttpResponse 的 getAllHeaders() .getHeaders(String name) 等 方法 可 获取 
服务 器 的 响应 头 ; 调 用 HttpResponse 的 getEntity() 方 法 获取 HttpEntity 对 象 , 该 对 象 包 
装 服务 器 的 响应 内 容 , 程 序 可 通过 该 对 象 获取 服务 器 的 响应 内 容 。 

(6) 释放 连接 。 无 论 执行 方法 是 否 成 功 , 都 必须 释放 连接 。 


3.2 分 析 与 准备 


通过 3.1 节 内 容 了 解 到 网 络 数据 采集 的 一 些 基础 知识 ,帮助 我 们 从 理论 知识 方面 了 解 
网 络 数 据 采 集 ,本 节 主 要 对 要 采集 的 数据 结构 进行 分 析 以 及 创建 编写 数据 采集 程序 的 环境 ， 
为 最 终 编写 数据 采集 程序 做 准备 。 


3.2.1 分 析 网 页 数据 结构 


在 候 取 网 站 数据 前 要 先 通过 分 析 网 站 的 源码 结构 制定 候 忠 程序 的 编写 方式 ,以 便 能 获 
取 准 确 的 数据 。 

使 用 Google 浏览 器 进入 开发 者 模式 ,切换 到 Network 这 一 项 ,在 浏览 器 的 地 址 栏 中 输 
入 要 疏 取 数据 网 站 的 URL ,在 职位 搜索 栏 中 输入 想 要 分 析 的 职位 进行 检索 ,这 时 候 可 以 看 
到 服务 器 返回 的 内 容 , 因 为 内 容 较 多 ,不 太 容易 找到 职位 信息 数据 ,所 以 通过 设置 过 滤 , 过 滤 
掉 不 需要 的 信息 ,如 图 3-3 所 示 。 

因为 该 网 站 的 职位 信息 并 不 在 HTML 源 代码 里 ,而 是 保存 在 JSON 文件 里 ,因此 在 图 
3-3 中 的 过 滤 一 栏 中 选择 XHR(XML Http Request) 过 滤 规 则 ,这 样 就 可 以 只 看 到 Ajax 请 
求 中 的 JSON 文件 了 ,我 们 将 要 获取 的 职位 信息 数据 也 在 这 个 JSON 文件 中 ,如 图 3-4 
所 示 。 

单 击 图 3-4 中 positionAjax.json 这 一 条 信息 ,在 弹出 的 窗口 选择 Preview 选项 ,通过 逐 
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3-3 查看 网 站 Network 信息 
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3-4 设置 过 滤 内 容 


级 展开 JSON 文件 中 的 数据 ,在 content>positionResult->~result 下 查看 大 数据 相关 的 职位 
信息 ,如 图 3-5 所 示 。 
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图 3-5 查看 大 数据 相关 的 职位 信息 


3.2.2 数据 采集 环境 准备 


本 章 编写 数据 采集 程序 主要 通过 Eclipse 开发 工具 完成 ,本 节 将 详细 讲解 如 何 通过 
Eclipse 工具 编程 ,实现 网 络 数据 的 采集 。 
(1) 打开 Eclipse 工具 , 单 击 File>New>Other, 


进入 Select a wizard 界面 ,选择 要 创建 
工程 的 类 别 ,这 里 选择 的 是 Maven Project, 即 创建 一 个 Maven 工程 ,具体 如 图 3-6 所 示 。 


[图 New 


Select a wizard 


一 > 
PE 
= 


Create a Maven Project 


Wizards: 
type filter text 


b EE JavaScript 

b ES JAXB 

b BB JPA 

4 ES Maven 
寅 Check out Maven Projects from SCM 
站 Maven Module 


Meven Projea] 


@ [ <8ck |e [ rm | 


图 3-6 创建 Maven 项目 


(2) 在 图 3-6 中 选择 创建 Maven Project, 单 击 Next 按钮 .进入 新 建 项 目 类 别 的 选择 界 
面 , 勾 选 Create a simple project 复 选 框 ,创建 一 个 简单 的 Maven 工程 ,具体 如 图 3-7 所 示 。 
(3) 在 图 3-7 中 , 单 击 Next 按钮 ,进入 Maven 工程 的 配置 界面 , 即 指定 Group Id 为 


com.itcast.jobcase, 指 定 Artifact Id 为 jobcase-reptile, 并 在 Packaging 下 拉 选 项 框 中 选择 打 
包 方式 为 jar, 如 图 3-8 所 示 。 
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3-7 选择 创建 一 个 简单 的 Maven 工程 
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图 3-8 配置 Maven 工程 


(4) 在 图 3-8 中 , 单 击 Finish 按钮 ,完成 Maven 工程 的 配置 .创建 好 的 Maven 工程 
jobcase-reptile 如 图 3-9 所 示 。 

(5) 在 图 3-9 中 ,双击 jobcase-reptile 工程 ,选中 src/main/java 文件 夹 , 右 键 单 击 New 一 
Package 创建 Package 包 , 并 命名 包 名 为 com.position.reptile, 如 图 3-10 所 示 。 


(6) 在 图 3-10 中 , 单 击 Finish 按钮 ,完成 Package 包 的 创建 ,创建 好 的 Package 包 如 
图 3-11 所 示 。 
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图 3-9 Maven 工程 jobcase-reptile 


园 New Java Package 


Java Package 
Create a new Java package. 
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图 3-10 创建 Package 包 
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(7) 在 图 3-11 中 ,双击 pom.xml 文件 ,添加 编写 爬虫 程序 所 需 的 HttpClient 和 JDK 1.8 
依赖 .pom.xml 文件 添加 的 内 容 , 具 体 如 文件 3-1 所 示 。 
文件 3-1 pom.xml 


1 <project xmlns=http:/maven .apache .org/POM/4.0.0 
2 xmlns:xsi= http://www.w3.0rg/2001/XMLSchema- instance xsi:schemaLocation= 
"http:/maven apache.org/POM/4.0.0 ”http:/maven apache org/xsdjmaven- 4.0.0xsd"> 


3 <modelVersion>4.0.0</modelVersion> 

4 < groupId> comitcastjobcase</groupId> 

5 <artifactId> jobcase- reptile< /artifactId> 

6 <version>0.0.1- SNAPSHOT< /Version> 

<dependencies> 

5 <dependency> 

9 <groupId> org.apache .httpcomponents< /groupId> 
10 <artifactId> httpclient< /artifactId> 

人 <version>4.5.4< /version> 

12 </dependency> 

13 <dependency> 

14 <groupld> jdk.tools< /groupId> 

15 <artifactId> jdk.tools< /artifactId> 

16 <version> 1.8< /version> 

17 <scope> system< /scope> 

18 <systemPath>$ {JAVA_HOME}lib/tools.jar</systemPath> 
9 </dependency> 

20 </dependencies> 

21 </project> 


(8) 选中 jobcase-reptile 工程 ,右键 单 击 选择 Maven 司 Update Project 更 新 工程 。 至 
此 ,就 完成 了 Maven 工程 的 搭建 。 


3.3 采集 网 页 数据 

通过 前 两 节 的 学 习 . 了 解 了 数据 采集 相关 的 基础 内 容 , 并 构建 了 开展 数据 采集 的 基本 环 
境 , 在 后 续 一 节 中 将 详细 讲解 通过 Java 语言 编写 基于 HttpClient 的 数据 采集 程序 。 
3.3.1 创建 响应 结果 JavaBean 类 


本 项 目 采集 的 网 页 数据 为 HTTP 请 求 过 程 中 的 响应 结果 数据 ,通过 创建 的 HttpClient 
响应 结果 对 象 作 为 数据 存储 的 载体 ,对 响应 结果 中 的 状态 码 和 数据 内 容 进 行 封装 。 

在 com.position.reptile 包 下 ,创建 名 为 HttpClientResp.java 文件 的 JavaBean 类 ,如 文 
件 3-2 所 示 。 


文件 3-2 HttpClientResp.java 


1 import javaio.Serializable: 

2 public class HttpClientResp implements Serializable { 

3 Private static final long serialVersionUID =2168152194164783950L: 
4 /响应 状态 码 
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3.3.2 封装 HTTP 请 求 的 工具 类 


在 com.position.reptile 包 下 ,创建 一 个 命名 为 HttpClientUtils.java 文件 的 工具 类 ,用 
于 实现 HTTP 请 求 的 方法 。 

(1) 在 类 中 定义 三 个 全 局 常量 ,便于 在 类 中 的 方法 统一 访问 ,下 面 是 这 三 个 常量 的 
概述 。 

@ ENCODING: 表示 定义 发 送 请 求 的 编码 格式 。 

@ CONNECT_TIMEOUT: 表示 设置 建立 连接 超时 时 间 。 

@ SOCKET_TIMEOUT: 表示 设置 请 求 获取 数据 的 超时 时 间 。 

为 了 有 效 地 防止 程序 阻塞 ,可 以 在 程序 中 设置 CONNECT_TIMEOUT 和 SOCKET_ 
TIMEOUT 这 两 项 参数 ,通过 在 类 中 定义 常量 的 方式 定义 参数 的 内 容 , 如 文件 3-3 所 示 。 


64 


大 数据 项 目 实战 


Duwhwmnb 


文件 3-3 HttpClientUtils.java 


/编码 格式 ,发 送 编码 格式 统一 用 UTF- 8 

private static final String ENCODING ="UTF- 8": 
/设置 连接 超时 时 间 , 单 位 毫秒 

Private static final int CONNECT_TIMEOUT =6000: 
/请 求 获取 数据 的 超时 时 间 ( 即 响应 时 间 ), 单 位 毫秒 
Private static final int SOCKET_TIMEOUT =6000: 


(2) 编写 packageHeader() 方 法 。 
在 工具 类 中 定义 packageHeader() 方 法 用 于 封装 HTTP 请 求 头 的 参数 ,如 Cookie、 User- 
Agent 等 信息 ,该 方法 中 包含 两 个 参数 ,分 别 为 params 和 httpMethod, 如 文件 3-4 所 示 。 


文件 3-4 HttpClientUtils.java 


1 public static void packageHeader(Map< String, String> params, 
2 HttpRequestBase httpMethod) { 


四 


/封装 请 求 头 
if (params !=nu1D) { 
Ix 


* 通过 foreach() 方 法 每 次 取出 一 个 键 值 对 保存 在 一 个 entry 中 


*/ 


4 
bi 
6 * 通过 entrySet() 方 法 从 params 中 返回 所 有 键 值 对 的 集合 .并 保存 在 entrySet 中 
5 
8 
9 


Set< Entry< String, String> >entrySet =params.entrySet(); 
10 for (Entry< String, String> entry : entrySet) { 
11 /通过 entry 分 别 获取 键 - 值 ,将 键 - 值 参数 设置 到 请 求 头 HttpRequestBase 对 象 中 


12 httpMethod.setHeader(entry.getKey(), entry.getValue()): 
13 下 

14 } 

15} 


文件 3-4 中 的 params 参数 的 数据 类 型 为 Map 一 String,String 二 ,主要 用 于 封装 请 求 头 


中 的 参数 ,其 中 ,Map 的 


Key 表示 请 求 头 参数 的 名 称 , Value 代表 请 求 头 参数 的 内 容 。 例 


如 ,在 请 求 头 中 加 入 参数 Cookie, 那 么 Map 的 Key 则 为 Cookie, Value 则 为 Cookie 的 具体 


内 容 。 


httpMethod 参数 为 HttpRequestBase 类 型 , HttpRequestBase 是 一 个 抽象 类 ,用 于 调用 


子 类 HttpPost 实现 类 。 


(3) 编写 packageParam() 方 法 。 
设置 HTTP 请 求 头 向 服务 器 发 送 请 求 ,通过 设置 请 求 参数 来 指定 获取 哪些 类 型 的 数据 
内 容 ,具体 需要 哪些 参数 以 及 这 些 参 数 的 作用 ,会 在 后 续 的 代码 中 进行 讲解 。 在 工具 类 中 定 


义 packageParam() 方 法 


日 于 封装 HTTP 请 求 参数 ,该 方法 中 包含 两 个 参数 ,分 别 为 params 


和 httpMethod, 如 文件 3-5 所 示 。 


文件 3-5 HttpClientUtils.java 


1 public static void packageParam(Map< String, String> params. 
2 HttpEntityEnclosingRequestBase httpMethod) 
3 throws UnsupportedEncodingException { 


4 /封装 请 求 参数 

5 if (params !=nulD) { 

6 A 

9 * NameValuePair 是 简单 名 称 值 对 节点 类 型 。 

8 * 多 用 于 Java 向 url 发 送 Post 请 求 。 在 发 送 

9 * post 请 求 时 用 该 list 来 存放 参数 。 

10 #1/ 

和 List< NameValuePair>nvps =new ArrayList<NameValuePair> 0): 
12 fe 

13 * 通过 entrySet() 方 法 从 params 中 返回 所 有 键 值 对 的 集合 ， 
14 * 并 保存 在 entrySet 中 ,通过 foreach 方法 每 次 取出 一 

15 * 个 键 值 对 保存 在 一 个 entry 中 。 

16 */ 

17 Set< Entry< String, String> >entrySet =params.entrySet(); 

18 for (Entry< String, String>entry : entrySet) { 

19 1/ 分 别提 取 entry 中 的 key 和 value 放 入 nvps 数组 中 。 
20 nvps.add(new BasicNameValuePair(entry.getKey(), 

21 entry.getValue())): 

22 } 

23 /设置 到 请 求 的 http 对 象 中 ,这 里 的 ENCODING 为 之 前 创建 的 编码 常量 。 
24 httpMethod .setEntity(new UrlEncodedFormEntity(nvps,ENCODING)): 
25 } 

26} 


上 述 代码 中 ,params 参数 为 Map 一 String, String 二 类 型 ,用 于 封装 请 求 参数 中 的 参数 
名 称 及 参数 值 ,httpMethod 参数 为 HttpEntityEnclosingRequestBase 类 型 ,是 一 个 抽象 类 ， 
其 实现 类 包括 HttpPost、HttpPatch、HttpPut, 是 HttpRequestBase 的 子 类 ,将 设置 的 请 求 
参数 封装 在 HttpEntityEnclosingRequestBase 对 象 中 。 

(4) 编写 HttpClientResp() 方 法 。 

前 两 步 已 经 创建 了 封装 请 求 头 和 请 求 参 数 的 方法 ,按照 HTTP 请 求 的 流程 在 服务 器 接 
收 到 请 求 后 服务 器 将 返回 请 求 端 响应 内 容 , 在 工具 类 中 定义 getHttpClientResult() 方 法 用 
于 获取 HTTP 响应 内 容 , 该 方法 中 包含 三 个 参数 ,分 别 为 httpResponse、httpClient 和 
httpMethod ,该 方法 包含 返回 值 ,返回 值 类 型 为 之 前 定义 的 实体 类 HttpClientResp ,其 中 内 
容 包括 响应 代码 和 响应 内 容 , 如 文件 3-6 所 示 。 

文件 3-6 HttpClientUtils.java 


1 public static HttpClientResp 

2 getHttpClientResult(CloseableHttpResponse httpResponse, 

3 CloseableHttpClient httpClient, HttpRequestBase httpMethod) 
4 throws Exception { 

5 1 通过 请 求 参 数 httpMethod 执行 HTTP 请 求 

6 httpResponse =httpClient.execute(httpMethod): 

思 /获取 HTTP 的 响应 结果 

8 if (httpResponse !=null && httpResponse.getStatusLine() !=nulD{ 
9 String content ="": 

10 if (httpResponse.getEntity() !=nulD) { 

11 /将 响应 结果 转 为 Sting 类 型 .并 设置 编码 格式 
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12 content =EntityUtils.toString(httpResponse.getEntity() 
13 ,ENCODING): 

14 } 

15 Ld 

16 * 返回 HttpClientResp 实体 类 的 对 象 ,这 两 个 参数 分 

3 * 别 代表 实体 类 中 的 code 属性 和 content 属性 ,分 别 代 
18 * 表 响 应 代码 和 响应 内 容 。 

19 */ 

20 Teturn new HttpClientResp(httpResponse 

2 -getStatusLine().getStatusCode(), content): 
22 上 

23 /如 果 没 有 接收 到 响应 内 容 则 返回 响应 的 错误 信息 

24 return new HttpClientResp(HttpStatusSC_INTERNAL_SERVER_ERROR): 
25} 


在 上 述 代码 中 ,创建 的 getHttpClientResult() 方 法 包含 三 个 参数 : httpResponse 参数 
为 CloseableHttpResponse 类 型 ,用 于 在 服务 器 接收 并 解释 请 求 消息 之 后 以 HTTP 响应 消 
息 进行 响应 ,我 们 将 要 获取 的 响应 内 容 就 是 通过 该 参数 获取 ; httpClient 参数 为 
CloseableHttpClient 类 型 ,用 于 表示 HTTP 请 求 执行 的 基础 对 象 ; httpMethod 参数 为 
HttpRequestBase 类 型 ,用 于 实现 HttpPost。 

(5) 编写 doPost() 方 法 。 

在 前 面 创建 了 请 求 头 、 请 求 参数 以 及 获取 响应 内 容 的 方法 。 接 下 来 将 讲解 通过 
HttpClient Post 方式 提交 请 求 头 和 请 求 参数 ,从 服务 端 返 回 状态 码 和 JSON 数据 内 容 。 
(注意 : 选取 请 求 方法 要 与 仆 取 网 站 规定 的 请 求 方法 一 致 ,可 以 通过 之 前 讲 过 的 开发 者 模式 


中 的 Network 查看 ,如 图 3-12 所 示 ), 如 文件 3-7 所 示 。 
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3-12 请求 方法 
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文件 3-7 HttpClientUtils.java 


上 述 代 码 中 的 doPost() 方 法 ,定义 的 返回 值 类 型 为 实体 类 HttpClientResp 对 象 ,方法 
中 包含 三 个 参数 ,分 别 如 下 。 

Q@ url: 进行 数据 采集 的 网 站 链接 。 

@ headers: 请 求 头 数 据 。 

@ params: 请 求 参数 数据 。 

在 doPost() 方 法 中 调用 已 创建 的 getHttpClientResult() 方 法 获取 响应 结果 数据 并 作 
为 方法 的 返回 值 。 

在 释放 资源 一 行 代码 会 报错 ,因为 释放 资源 方法 需要 通过 自行 创建 后 去 调用 ,下 面 将 编 
写 释放 资源 的 方法 。 
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(6) 编写 release() 方 法 。 

HttpClient 在 使 用 过 程 中 要 注意 资源 释放 和 超时 处 理 的 问题 ,如 果 线 程 资源 无 法 释放 ， 
会 导致 线程 一 直 在 等 待 ,最 终 导致 内 存 或 线程 被 大 量 占 用 。 这 里 创建 了 一 个 释放 资源 的 方 
法 release() 主要 用 于 释放 httpclient(HTTP 请 求 ) 对 象 资源 和 httpResponse(HTTP 响应 ) 
对 象 资源 ,如 文件 3-8 所 示 。 


文件 3-8 HttpClientUtils.java 


1 public static void release(CloseableHttpResponse httpResponse, 
CloseableHttpClient httpClient) throws IOException { 
本 /释放 资源 

4 if (httpResponse !=nulD) { 
5 httpResponse.close(): 
6 } 

if (httpClient !=null) { 

8 httpClient.close(); 

9 } 

10} 


至 此 ,HttpClient 的 所 有 工具 类 准备 完毕 ,后 续 直 接 在 实现 网 页 数据 采集 的 主 类 中 调用 
这 些 方法 即 可 ,通过 编写 存储 数据 的 工具 类 ,实现 将 采集 的 网 页 数据 存储 到 HDFS 上 。 


3.3.3 封装 存储 在 HDFS 的 工具 类 


通过 前 两 节 的 操作 可 以 成 功 采集 招聘 网 站 的 数据 ,为 了 便于 后 续 对 数据 的 预 处 理 和 分 
析 , 需 要 将 数据 采集 程序 获取 的 数据 存储 到 本 地 或 者 集群 中 的 HDFS 上 ,本 节 将 详细 讲解 
如 何 将 和 仆 取 的 数据 存放 到 HDFS 上 。 
(1) 在 pom.xml 文件 中 添加 Hadoop 的 依赖 ,用 于 调用 HDFS API, 代 码 如 文件 3-9 
所 示 。 
文件 3-9 pom.xml 


1 <dependency> 

2 < groupld> org.apache.hadoop< /grouplId> 
Ej <artifactId> hadoop- common< /artifactId> 
4 <version>2.7.4</version> 

5 </dependency> 

6 <dependency> 

7 < groupId> org.apachehadoop</groupId> 
8 <artifactId> hadoop- client< /artifactId> 

9 <version>2.7.4< /version> 

10 </dependency> 


(2) 在 com.position.reptile 包 下 ,创建 名 为 HttpClientHdfsUtils.java 文件 的 工具 类 ， 
实现 将 数据 写 和 人 HDFS 的 方法 createFileBySysTime(), 该 方法 包括 三 个 参数 : url( 表 示 
Hadoop 地 址 ) \fileName( 表 示 存 储 数 据 的 文件 名 称 ) 和 data( 表 示 数 据 内 容 ), 如 文件 3-10 
所 示 。 
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文件 3-10 ”HttpClientHdfsUtils.java 


上 述 代 码 中 ,指定 在 Hadoop 集群 的 HDFS 上 创建 /JobData 目录 ,用 于 存储 当天 疏 取 
的 数据 ,数据 将 以 文件 的 形式 存储 在 由 当前 系统 日 期 的 “年 月 日 "组 成 目录 下 。 

至 此 ,将 数据 存储 到 HDFS 上 的 工具 类 准备 完成 ,后 续 直 接 在 实现 网 页 数据 采集 的 主 
类 中 调用 该 方法 即 可 实现 将 采集 的 数据 实时 存储 到 HDFS 上 ,通过 编写 主 方法 实现 网 页 数 
据 采 集 功 能 。 
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3.3.4 实现 网 页 数据 采集 

实现 网 页 数据 采集 的 详细 过 程 分 为 如 下 几 个 步骤 。 

(1) 获取 网 站 的 请 求 头 内 容 , 可 通过 Chrome 浏览 器 进入 开发 者 模式 查看 请 求 头 的 详 
细 内 容 ,如 图 3-13 所 示 。 


大 数据 


+ 


民 加 | Hements Console Sources Network Peromance Memory Apphcation Securty Audits 
OO|FQ |preevelog Disablecahe | Onine v | 


Filter Hide data URLs Al | ES css ,me Media Font poc ws Manifest other 

50000 ms 100000 ms 150000 ms 200000 ms 250000 ms 300000 ms 3 
Name x Headers Preview Response Cookies Timing 
[DD qvery vRequestHeaders ~ view source | 
[Cc .oacoeaooi:o text/jovascript, :oo 


[DcompanyAjaxjson?needAddtionalResult=false 

口 wafcheckjson 

Davey 

口 approvejsonzcompanylds=55446%2C113856%2C7232%2C34_ 
DD mark_info?positionlds =6329735%2C6325001%2C6304350%..2... 
[DD mark_info?positionlds =6329735%2C6325001%2C6304350%..2... 
口 osshtmizu=/jobwylist_%E5%A4%A7%E6%95%B0O3%E63%8D5KAEBL 


AcceptLanguage zh-CN zhiq-9.9ven-68;9-9.Bven;q-9.7 
Connection: keep-alive 

Content-Length: 46 

Content Type: application/x-wm-form-urlencoded; charset=UTF-8 

Cookie: ]SESSIONID=ABAAABAAADEAAFIA2528DFDC3D1E133DEF2EE569E811717; user_trace_ 
token=<29190995181435-d747c161-dcbc-4eea-98fe-d16d17a89e41; WEBT]-ID=2819899518 
1434-16d99eb299c322-99be42c9f15529-5373e62-2973669-16d68geb299d97a; Hm_lvt_4233 


Accept- Encoding: gzip, deflate, br | 


9/ 118 requests | 28.5KB/ 111 KB transferred | 26.0KB/1.5MB 


图 3-13 请求 头 数据 


在 图 3-13 中 ,将 Request Headers 一 项 中 的 参数 以 二 Key,Value 二 形式 写 人 到 Map 集 
合 中 作为 数据 采集 程序 的 请 求 头 ,这 么 做 的 目的 是 模拟 浏览 器 登录 ,Cookie 一 栏 参数 只 有 
登录 才 会 产生 ,建议 读者 登录 网 站 以 获取 Cookie, 防 止息 虫 失败 。 

(2) 在 com.position.reptile 包 下 ,创建 名 为 HttpClientData.java 文件 的 主 类 ,用 于 实现 
数据 采集 功能 ,在 该 类 中 创建 main() 方 法 ,在 main() 方 法 中 创建 Map 集合 headers ,将 请 求 
头 参 数 放 和 人 集合 中 ,如 文件 3-11 所 示 。 

文件 3-11 HttpClientData.java 


1 /设置 请 求 头 

2 Map< String. String>headers =new HashMap< String, String>(): 

3 headers.put("Cookie", ™"): 

4 headers.put("Connection”, "keep- alive”): 

headers.put("Accept", 

6 "application/json, text/javascript, * /*: q=0.01"): 
headers.put("Accept- Language""zh- CN.zh:q=0.9.en- GB:q=0.8.en:q=0.7"): 
8 headers.put("User- Agent 

9 "Mozilla/5.0 (Windows NT 10.0: Win64: x64) " 
10 +"AppleWebKit/537.36 (KHTML, like Gecko) ” 
11 +"Chrome/75.0.3770.142 Safari/537.36"): 


12 headersput("Content- Type" 


13 “application/x- www- form- urlencoded: charset=UTF- 8"): 

14 headersput("Referer", 

15 "https://www.lagou.comy/ijobs/list_9%E5%A4%ATIE6HISHBOWMECHSDHAETY™ 
16 +"px=default&city= IE5%85%ASHESAIBHBD"): 


17 headers.put("Origin"”, “https://www.lagou.com"): 

18 headersput("X- Requested- With" "XMLHttpRequest"): 
Ed headers.put("X- Anit- Forge- Token”, "None"): 

20 headers.put("Cache- Control "no- cache™): 

21 ~ headersput("X- Anit- Forge- Code" "0"): 

22 headers.put("Host", "wwwlagou.com"): 


(3) 在 HttpClientData 类 的 main() 方 法 中 再 创建 一 个 Map 集合 params, 将 请 求 参数 
放 人 集合 中 ,本 项 目 主要 使 用 三 个 参数 来 指定 获取 的 数据 类 型 ,这 三 个 参数 包括 : kd( 职 位 
类 型 ) .city( 城 市 ) 和 pn( 页 数 ) 。 其 中 ,pn 参数 需要 在 每 次 HTTP 请 求 中 发 生 递 增 变化 , 作 
用 在 于 疏 取 不 同 页 面 中 的 数据 ,因此 向 集合 params 中 添加 pn 参数 的 操作 应 放 在 循环 中 进 
行 ,下 面 通过 编写 代码 设置 请 求 参数 ,如 文件 3-12 所 示 。 
文件 3-12 HttpClientData.java 


Map< String, String> params =new HashMap< String, String>(): 
params.put("kd" "大 数据 "): 
params.put("city",“" 全 国 "): 
for (int i =1: i <31: it+) { 
Params.put(“pn", String.valueOf(i)): 
} 


wewbn 


通过 上 述 代 码 中 指定 的 请 求 参 数 可 以 看 出 ,本 实 训 项 目 获 取 的 职位 数据 为 全 国 的 大 数 
据 相 关 职 位 信息 ,获取 30 页 的 数据 内 容 进 行 后 续 的 分 析 工 作 。 

注意 : 参数 名 称 要 与 网 站 指定 的 参数 名 称 一 致 ,可 通过 浏览 器 进入 开发 者 模式 进行 查 
看 ,如 果 参 数 错误 会 导致 客户 端 发 送 的 请 求 服务 端 无 法 解析 ,无 法 获取 数据 。 

(4) 请 求 头 和 请 求 参数 设置 完毕 后 ,通过 HttpClient 的 post 请 求实 现 数据 的 获取 , 因 
为 需要 获取 不 同 页 面 的 数据 ,每 个 页 面 的 pn 参数 都 会 发 生变 化 (请 求 参数 发 生变 化 ) ,因此 
获取 数据 的 方法 要 放 在 上 一 步 实现 的 for 循环 中 ,通过 变化 的 参数 获取 数据 ,将 数据 保存 到 
HDFS 上 ,更 新 后 的 for 循环 内 部 代码 如 文件 3-13 所 示 。 

文件 3-13 HttpClientData.java 


1 for (inti=li<31:i++){ 

人 params.put(“pn", String.valueOf(i)): 

3 HttpClientResp result =HttpClientUtils 

4 .doPost("“https://www.lagou.conmyjobs/positionAjax .json?™ 
1 + "needAddtionalResult=false&first=true&px= default”, 
6 headers,params): 

T HttpClientHdfsUtils.createFileBySysTime( “hdfs://hadoop01:9000", 

8 "page"+iresulttoString()): 

9 Thread.sleep(1 * 500): 

10} 
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在 上 述 代码 中 ,第 7~8 行 代码 调用 HDFS 工具 类 中 的 createFileBySysTime() 方 法 ,该 
方法 所 需要 的 三 个 参数 分 别 为 : Hadoop 地 址 文件 名 和 数据 内 容 , 用 于 实现 将 每 一 页 的 数 
据 以 文件 的 形式 存储 到 HDFS 上 ;第 9 行 代 码 设置 请 求 的 间隔 时 间 ,便于 防止 请 求 过 快 而 
被 服务 器 屏蔽 。 

在 Eclipse 开发 工具 中 运行 主 类 文件 HttpClientData.java, 最 终 将 采集 的 数据 存储 到 
HDFS 的 /JobData/20190807 中 ,程序 运行 完成 后 在 三 台 虚 拟 机 中 任意 一 台 执行 Shell 指令 
“hdfs dfs -ls /JobData/20190807”, 均 可 查看 最 终 采 集 的 数据 结果 ,需要 注意 的 是 hdfs 上 的 
创建 目录 名 称 是 根据 运行 程序 的 时 间 而 定 , 所 以 需 根 据 个 人 运行 程序 的 时 间 对 指令 中 的 目 
录 进 行 修改 ,最 终 采 集 的 数据 结果 如 图 3-14 所 示 。 


3 root supergroup 25012 2019-07-28 08: 13 /JobData/20190807/pagel 
3 root supergroup 25299 2019-07-28 08: 13 /JobData/20190807/pagel0 
3 root supergroup 25768 2019-07-28 08: 13 /JobData/20190807/pagell 
3 root supergroup 24950 2019-07-28 08:14 /JobData/20190807/pagel2 
3 root supergroup 25603 2019-07-28 08: 14 /JobData/20190807/pagel3 
3 root supergroup 24654 2019-07-28 08: 14 /JobData/20190807/pagel4 
3 root supergroup 24781 2019-07-28 08: 14 /JobData/20190807/page15 
3 root supergroup 25339 2019-07-28 08:14 /JobData/20190807/page16 
3 root supergroup 25448 2019-07-28 08: 14 /JobData/20190807/pagel7 
3 root supergroup 24766 2019-07-28 08: 14 /JobData/20190807/pagel8 
3 root supergroup 24918 2019-07-28 08:14 /JobData/20190807/page19 
3 root supergroup 24983 2019-07-28 08: 13 /JobData/20190807/page2 
3 root supergroup 24772 2019-07-28 08: 14 /JobData/20190807/page20 
3 root supergroup 24873 2019-07-28 08: 14 /JobData/20190807/page21 
3 root supergroup 25077 2019-07-28 08; 14 /JobData/20190807/page22 
3 root supergroup 25126 2019-07-28 08: 14 /JobData/20190807/page23 
3 root supergroup 25036 2019-07-28 08: 14 /JobData/20190807/page24 
3 root supergroup 25358 2019-07-28 08:14 /JobData/20190807/page25 
3 root supergroup 24945 2019-07-28 08: 14 /JobData/20190807/page26 
3 root supergroup 25794 2019-07-28 08:14 /JobData/20190807/page27 
3 root supergroup 25251 2019-07-28 08; 14 /JobData/20190807/page28 
3 root supergroup 26570 2019-07-28 08: 14 /JobData/20190807/page29 
3 root supergroup 26139 2019-07-28 08: 13 /JobData/20190807/page3 
3 root supergroup 24853 2019-07-28 08; 14 /JobData/20190807/page30 
3 root supergroup 25084 2019-07-28 08:13 /JobData/20190807/page4 
3 root supergroup 25294 2019-07-28 08:13 /JobData/20190807/page5 
3 root supergroup 24520 2019-07-28 08: 13 /JobData/20190807/page6 
3 root supergroup 25750 2019-07-28 08: 13 /JobData/20190807/page7 
3 root supergroup 25645 2019-07-28 08: 13 /JobData/20190807/page8 
3 root supergroup 24709 2019-07-28 08: 13 /JobData/20190807/page9 目 

[root@hadoop01 “]# ee 

重新 连接 到 远程 主机 ssh2: AES-256-CTR 33, 20 33 行 ,115 有 FVT100 大 写 数字 ,| 

图 3-14 数据 结果 


注意 : 如 读者 在 爬 取 数 据 时 遇 到 问题 ,例如 IP 或 者 用 户 被 锁定 ,导致 数据 无 法 获取 ,可 
在 网 页 中 退出 当前 登录 的 账户 并 清除 浏览 器 缓存 后 关闭 浏览 器 ,等 候 几 分 钟 后 再 次 登录 账 
户 获 取 Cookie, 为 了 避免 类 似 情 况 的 发 生 , 应 避免 频繁 地 爬 取 数 据 。 因 为 爬 取 数据 存在 不 
可 控 性 , 若 无 法 获取 数据 ,读者 也 可 在 本 书 提供 的 配套 资源 中 下 载 使 用 已 经 准备 好 的 数据 。 


小 结 


本 章 主要 讲解 网 络 数据 采集 程序 的 编写 。 首 先 ,通过 理论 基础 方面 了 解数 据 采 集 相 关 
知识 内 容 , 其 中 包括 数据 源 的 分 类 、HTTP 的 请 求 过 程 和 HttpClient 框架 的 基本 介绍 。 然 
后 ,通过 分 析 采 集 数据 的 结构 制定 程序 的 编写 方案 以 及 编写 采集 程序 环境 的 准备 。 最 后 , 实 
际 开发 一 个 候 取 招聘 网 站 数据 的 程序 。 通 过 本 章 的 学 习 , 读 者 可 掌握 通过 HttpClient 框架 
进行 怜 虫 的 技巧 ,熟悉 编写 怜 虫 程序 的 操作 流程 。 
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学 习 目标 
。 了 解数 据 预 处 理 流 程 ; 
掌握 编写 MapReduce 程序 的 方法 ; 
。 熟悉 HDFS Shell 的 基本 使 用 
。 掌握 MapReduce 程序 的 两 种 运行 模式 。 


由 于 海量 数据 的 来 源 是 广泛 的 ,数据 类 型 也 是 多 而 繁杂 的 ,因此 ,数据 中 会 夹杂 着 不 完 
整 的 ,重复 的 以 及 错误 的 数据 ,如 果 直 接 使 用 这 些 原始 数据 的 话 ,会 严重 影响 数据 决策 的 效 
率 。 因 此 ,对 原始 数据 进行 预 处 理 是 大 数据 分 析 和 应 用 过 程 中 的 关键 环节 。 本 章 将 针对 第 
3 章 采集 的 数据 进行 预 处 理 。 


4.1 分 析 预 处 理 数据 


对 数据 进行 预 处 理 之 前 ,有 必要 先 分 析 一 下 要 处 理 数据 的 数据 结构 ,从 而 制定 合理 的 数据 
预 处 理 方案 。 第 3 章 采集 的 数据 都 是 以 文件 的 形式 保存 在 HDFS 上 ,这 里 借助 SecureCRT 工 
具 连 接 虚拟 机 并 查看 数据 文件 。 这 里 以 查看 数据 文件 pagel 为 例 ,在 任意 一 台 虚 拟 机 执行 指 
今 “hdfs dfs -cat id amid ”打开 数据 文件 ,文件 中 部 分 数据 如 图 4-1 所 示 。 


es 全 未 融资 ， jobNature” : 全 职 ，approve :1, “companyLabelList :[ 节日 礼物 ， 技 能 培训 “ 
“免费 班车 *,“ 带 菜 年 假 "],“publisherId":10876104,“score" :0, "district":“* 浦 东 新 区 *,“positionLabl 
es [大 数据 "，“Hadoop”"]， industryLables”: [大 数据 "，Hadoop"]， “businessZones”:[" 张 江 ”], “longit 
“121. 629302”, “latitude” :31. 210034”, “formatCreateTime” :09: 10 发 布 ”， “companyFul1lName”:“ 申 
息 技术 (上海) 股份 有 限 公 司 “, “adWord”:0, “hitags” :null, “resuneProcessRate” :39, “resumeProcessD 
i :today”, "lastLogin” :1565147590000, "explain” :null, “plus”:null, "peShow” :0, “apps 
how” :0, “deliver” :0, “gradeDescription” :null, “promotionScoreExplain” :null, "firstType”;“ 开 发 测 
;secondType :数据 开发 “isSchoolJob subwayline”:“2 号 线 \\2 号 线 东 延 线 ", “station 
路 “, “linestaion”:; “2 号 线 \\2 号 线 东 延 线 ， 广 “thirdType”: “BI 工程 师 , “skillLables”: 
["Hadoop”], "isHotHire”:0}, {"companyId”:67389, “pos 6246354“industryField“ :移动 互联 网 
, 金融", “education”:“ 本 科 ”, "workYear”:“1-3 年 “ "cit positionAdvantage”:" 发 展 空 间 大 , 带 
霖 年 假 , 补充 医疗 , 定期 体检 “, “createTime”:“2019-08-07 11:00:47”, “salary”:“10k-20k”, “positionName 
“:“ 大 数据 工程 师 “, “companySize”:“500-2000 人 “,“companyShortName”: “北京 Re companyLogo 3 
| image/Moo/6F/38/CgpEMlmyBJyAWbaUAABXgIOTygI713. png”, “financeStage”:” “jobNature“ :全 
“，“approye“ :1，“companyLabelList" : [“ 绩 “],"publisherTd 国 
)， :“ 昌 “positionLables” “industryLables” 
businessZones”:[" 北 七 家 “, “回龙观 “,“ 东 小 口 ], longitude”:“116. 368664”, “latitude” : 40. 0984 
formatCreateTime”:“11:00 发 布 ",，“companyFullName” *" 址 指南 针 科技 发 展 股 份 有 限 公司 “， “adWord 
:0, “hitags” :null, “resumeProcessRate” ;41, ”] :today”, lastLogin” S| 
565145732000, “explain” :null, “plus” :null, “pcShow” :0, ” gradeDescril 
:nu11, “promotionScoreExplain”:null, “firstType”:“ 开 发 | 测试 | 运 维 类 “, “secondType”:“ 数 据 开发 电 


3 S256 CIR 21, 呈 记 季 虹 列 Vi100 EEC | 


4-1 数据 文件 内 容 
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图 4-1 展示 的 数据 内 容 是 JSON 格式 ,为 了 便于 直观 地 查看 数据 结构 的 内 容 ,通过 
JSON 格式 化 工具 对 pagel 文件 中 的 数据 进行 格式 化 处 理 , 查 看 存储 了 职位 信息 的 result 
字段 ,具体 如 图 4-2 所 示 。 


industryField : null 


positionName : null 
companysize : null 
strategyProperty {2} 


resultsize : 15 


了 


v 


queryAnalysisInfo {5} 
hotLabels : null 


hiTags : null 


了 


categoryTypeAndName {1} 


了 


locationInfo {6} 


< 


result [15] 

v 9@ {49} 
companyId : 418969 
positionId : 5351192 
industryField : 移动 互联 网 ,旅游 
education : 本 科 
workYear : 3-5 年 
city : 北京 
positionAdvantage : 环境 宽松 ,待遇 优厚 ,发 展 空间 大 
createTime : 2019-96-85 13:47:35 
salary : 29k-46k 
positionName : 大 数据 架构 师 
companySize : 2999 人 以 上 

图 4-2 格式 化 数据 


在 图 4-2 中 ,有 很 多 关于 职位 信息 的 数据 ,因为 本 项 目 主 要 分 析 的 内 容 是 薪资 .福利 、 技 
能 要 求职 位 分 布 这 四 方面 ,所 以 重点 分 析 表 示 薪 资 的 salary、 表 示 职 位 所 在 城市 的 city, 表 
示 技 能 要 求 的 skillLables, 表 示 福 利 的 companyLabelList 和 positionAdvantage 这 五 个 字 
段 数据 ,具体 分 析 如 下 。 


1. salary 


薪资 字段 的 数据 内 容 为 字符 串 形 式 , 例 如 ,*20k 一 40k” 表 示 薪 资 的 区 间 值 ,其 中 ,1k 代 
表 1000, 则 20k 一 40k 可 以 理解 为 20 000 一 40 000。 为 了 便于 后 续 对 薪资 数据 进行 分 析 , 需 
要 将 提取 出 的 薪资 数据 进行 格式 化 处 理 , 去 除 薪资 数据 中 包含 的 “k” 字 符 ,将 薪资 数据 保存 
为 “20 一 40? 的 数据 样式 进行 存储 。 


2. city 


城市 字段 的 数据 内 容 为 字符 串 形 式 , 例 如 ,北京 "表示 招聘 职位 的 城市 ,对 该 字段 的 预 
处 理 内 容 为 直接 提取 即 可 ,无须 处 理 。 


3. skillLabels 


技能 要 求 字 段 的 数据 内 容 为 数组 形式 ,例如 ,“[" 数 据 仓库 "," 数 据 架 构 ","Hadoop"j]” 
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表示 招聘 职位 需要 掌握 的 多 个 技能 。 对 该 字段 的 内 容 需 进行 格式 化 处 理 , 提 取 数 组 中 的 每 
一 个 数据 ,并 将 每 一 个 技能 数据 通过 “-" 分 隔 符 重新 组 合成 新 的 字符 串 数 据 形式 进行 存储 ， 
便于 后 续 将 数据 导入 到 数据 仓库 中 。 格 式 化 后 的 结果 为 “数据 仓库 -数据 架构 -Hadoop”。 


4. companyLabelList 和 positionAdvantage 


在 职位 信息 数据 中 有 两 个 字段 内 容 ,包含 福利 标签 数据 companyLabelList 字段 和 
positionAdvantage 字段 ,前 者 数据 形式 为 数组 ,后 者 数据 形式 为 字符 串 ,数据 预 处 理 程序 对 
这 两 个 字段 进行 格式 化 处 理 , 将 这 两 个 字段 的 每 个 福利 标签 进行 提取 并 利用 “- "作为 分 隔 符 
合并 成 新 的 数据 内 容 。 

小 提示 : positionAdvantage 字段 的 数据 较为 特殊 ,该 字段 在 招聘 网 站 中 没有 规定 数据 
格式 ,因此 获取 的 数据 会 出 现 以 多 种 形式 作为 分 隔 符 分 隔 每 个 福利 标签 的 字符 串 , 在 进行 格 
式 化 处 理 时 需 考 虑 到 多 个 常用 的 分 隔 符 进 行 处 理 。 


4.2 ”设计 数据 预 处 理 方案 


常用 的 数据 预 处 理 方法 主要 有 数据 清洗 .数据 集成 .数据 变换 .数据 归 约 等 。 在 这 里 ,使 
用 数据 清洗 方法 对 采集 的 数据 进行 预 处 理 。 在 本 项 目 中 ,通过 分 布 式 系统 基础 架构 
Hadoop 提供 的 MapReduce 编程 模型 来 编写 MapReduce 程序 实现 数据 清洗 。 一 般 地 ,编写 
MapReduce 程序 需要 包含 Mapper、Reducer 和 Job 这 三 个 部 分 ,但 是 ,由 于 本 项 目 中 采集 的 数 
据 只 需要 做 预 处 理 操作 ,而 不 需要 进行 合并 处 理 , 因 此 只 需要 编写 Mapper 阶段 的 代码 即 可 。 

下 面 通过 一 张 图 来 描述 如 何 通过 编写 MapReduce 程序 ,实现 将 采集 的 源 数据 进行 预 处 
理 得 到 目标 数据 的 过 程 ,具体 如 图 4-3 所 示 。 


CombineTextInputFormat 组 件 


a 将 输入 文件 将 切片 解析 

HDFS 采 集 | ”输入 | 。| 进行 分 片 处 | ”为 <K,V> 键 值 
数据 文件 理 InputSplit 对 形式 

esp ome 
map 函 数 中 个 : 
HDFS 存 储 | 。 输出 调用 清洗 类 | 信人 
预 处 理 结果 处 理 数据 > 

MapReduce 数 据 预 处 理 


图 4-3 MapReduce 程序 实现 数据 预 处 理 的 过 程 


从 图 4-3 可 以 看 出 ,MapReduce 程序 实现 数据 预 处 理 的 过 程 主 要 分 为 以 下 几 部 分 ,具体 
介绍 如 下 。 

(1) MapReduce 通过 默认 组 件 TextInputFormat 将 HDFS 输入 的 数据 文件 进行 分 片 处 理 ， 
本 项 目的 数据 文件 为 大 量 的 小 文件 ,因此 在 程序 运行 时 会 产生 大 量 的 maptask, 造 成 处 理 效率 
人 慢 的 问题 。 为 了 优化 程序 ,这 里 将 TextInputFormat 替换 为 CombineTextInputFormat ,将 多 个 
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小 文件 从 人 逻辑 上 规划 到 一 个 切片 中 ,这 样 多 个 小 文件 就 可 以 交 给 一 个 maptask 了 。 

(2) 对 输入 的 切片 按照 默认 的 规则 解析 成 一 K,V 二 键 值 对 的 形式 。“ 键 (K)” 是 每 一 行 
的 起 始 位 置 (单位 是 字 节 ),“ 值 (V)” 是 本 行 的 文本 内 容 。 

(3) 将 解析 出 的 二 K,V 二 键 值 对 交 给 用 户 编写 的 map() 函数 处 理 。 

(4) 在 map() 函 数 中 调用 数据 清洗 类 实现 数据 预 处 理 , 并 产生 一 系列 新 的 二 K,V 二 键 
值 对 。 

(5) 当 所 有 数据 处 理 完成 后 ,将 所 有 数据 合并 到 一 个 数据 文件 中 , 写 到 HDFS 上 。 


4.3 实现 数据 的 预 处 理 


4.3.1 数据 预 处理 环 境 准 备 


编写 数据 预 处 理 程序 前 ,需要 先 准 备 编写 及 运行 程序 的 环境 ,包括 创建 工程 和 启动 
Hadoop 集群 ,具体 介绍 如 下 。 


1. 创建 并 配置 工程 


(1) 通过 使 用 Eclipse 开发 工具 ,创建 一 个 名 称 为 jobcase-clean 的 Maven 工程 (创建 工 
程 的 流程 请 参考 第 3 章 , 这 里 不 做 袭 述 ) ,如 图 4-4 所 示 。 
国 Java -Eclipse x 


‘Fle Edit Source Refactor Navigate Search Project Run Window Help 
vi Gr 和 ODP 


ET 


又 el 


凶 jobcase-dean 
七 src/mainfjava 
@ src/main/resources 
@ srchtestiava 
@ src/test/resources 


| 辕 吉 四 吕 因 %: 


» BM JRE System Library (dk1.8.0 191] 
bp sre 

EE target 

pomxml 


图 4-4 新 建 的 jobcase-clean 工程 


(2) 打开 pom.xml 文 件 , 添 加 与 Hadoop 相关 的 依赖 ,具体 如 文件 4-1 所 示 。 
文件 4-1 pom.xml 


1 <project xmlns=http://maven.apache.org/POM/4.0.0 

2 xmilns:xsi=http://www.w3.0org/2001/XMLSchema- instance 
3 xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 

4 http://maven.apache.org/xsd/maven- 4.0.0xsd"> 

5 <modelVersion>4.0.0</modelVersion> 

6 <groupId>comitcastjobcase</groupId> 
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7 <artifactId> jobcase- reptile< /artifactId> 
<version>0.0.1- SNAPSHOT< /Version> 
9 <dependencies> 


10 <dependency> 
11 <groupId> org.apache.hadoop</groupId> 
<artifactId> hadoop- common< /artifactId> 
13 <version>2.7.4< /Version> 

14 </dependency> 

15 <dependency> 

16 <groupId> org.apache.hadoop< /groupId> 
到 <artifactId> hadoop- client< /artifactId> 
18 <version>2.7.4< /Version> 

19 </dependency> 

20 </dependencies> 

21 </project> 


配置 完成 后 , 右 击 项 目 选 择 Maven 选项 , 单 击 Update Project, 完 成 项 目 工程 的 搭建 。 

2. 启动 Hadoop 集群 

(1) 在 VMware 中 依次 启动 服务 器 Hadoop01、Hadoop02 和 Hadoop03, 启 动 后 使 用 
SecureCRT 工具 连接 这 三 台 服 务 器 ,具体 如 图 4-5 所 示 。 


编辑 (E) ”查看 (V)】 ”选项 [O) 传输 () 胶 本 (S) 工具 (窗口 (W) 帮助 (H) 


文件 
疙 家 | 纺 入 主机 <Alt+R> 2 


| 192168.121.134 x | 192:168.121.135 | Y 192.168.121.136 
# 


就 绪 ssh2: AES-256-CTR 1, 20 14 行 , 81 列 VT100 大 写 数字 


4-5 连接 虚拟 机 


(2) 在 任 一 服务 器 节点 分 别 使 用 start-dfs.sh 和 start-yarn. sh 两 条 Shell 指令 启动 
Hadoop 进程 。 整 个 Hadoop 集群 服务 启动 后 ,可 以 使 用 jps 指令 查看 各 服务 器 节点 的 进程 
启动 情况 ,具体 如 图 4-6 一 图 4-8 所 示 。 

从 图 4-6 一 图 4-8 可 以 看 出 , hadoop0l 节点 上 启动 了 NameNode、DataNode、 
ResourceManager 和 NodeManager 四 个 服务 进程 ; hadoop02 上 启动 了 DataNode、 
NodeManager 和 SecondaryNameNode 三 个 Hadoop 服务 进程 ; hadoop03 上 启动 了 
DataNode 和 NodeManager 两 个 服务 进程 ,说 明 Hadoop 集群 启动 正常 。 


4.3.2 创建 数据 转换 类 
编写 数据 转换 类 ,实现 对 薪资 .职位 所 在 城市 .技能 要 求 和 福利 这 四 类 数据 的 提取 与 处 


Hf 
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文件 (有 |” 编 坊 (昌吉 看 V) 选 页 (0) 传 纺 () 脚本 (S) 工具 (WD 窗口 (W) 帮助 (H) 
输入 主机 <Alt+R> 豆 


区 192.168.121.134 x | 192.168.121.135 | 7 192.168.121.136 


Troot@hadoopdl “J# jps 
40308 Jps 
6454 DataNode 

6794 Nodelanager 
6699 Resourcellanager 
6333 NaneNode 
[root@hadoop0l “]# 四 


< 加 


就 绪 ssh2: AES-256-CTR 7, 20 13 行 72 列 VT100 
图 4-6 ”hadoop01 集群 服务 进程 效果 图 


2922 DataNode 

3003 SecondaryNaneNode 
3068 Nodeltanager 
[root@hadoop02“]# 四 


ssh2: AES-256-CTR 6 20 13 行 ,72 列 VT100 


9721 NodeManager 
2636 DataNode 
[root@hadoop03“]# 国 


就 绪 ssh2: AES-256-CTR 5 20 13 行 72 列 VT100 
图 4-8 ”hadoop03 集群 服务 进程 效果 图 


理 ,具体 实现 步骤 如 下 。 
1. 创建 转换 类 


在 jobcase-clean 工程 下 的 src/main/java 文件 夹 下 创建 一 个 名 称 为 com.position.clean 
的 Package 包 , 在 包 下 创建 CleanJob 类 ,用 于 实现 对 职位 信息 数据 进行 转换 操作 ,创建 好 的 
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CleanJob 类 的 代码 具体 如 下 。 


2. 编写 实现 处 理 薪 资 数据 的 方法 


在 CleanJob 类 中 添加 方法 deleteString(), 用 于 对 薪资 字符 串 进行 处 理 , 即 去 除 薪资 中 
的 “k” 字 符 , 具 体 代码 如 文件 4-2 所 示 。 
文件 4-2 CleanJob.java 


从 文件 4-2 可 以 看 出 , deleteString() 方 法 中 包含 两 个 参数 str( 要 处 理 的 字符 串 ) 和 
delChar( 指 定 从 字符 串 中 剔除 的 字符 ) ,调用 该 方法 时 指定 这 两 个 参数 实现 薪资 字符 串 中 
“k" 字 符 的 剔除 ,最终 返回 符合 要 求 的 字符 串 。 


3. 编写 实现 处 理 福利 数据 的 方法 


在 CleanJob 类 中 添加 方法 mergeString(), 用 于 将 companyLabelList 字段 中 的 数据 内 
容 和 positionAdvantage 字段 中 的 数据 内 容 进行 合并 人 处理, 生成 新 字符 串 数 据 ( 以 “-” 为 分 隔 
符 ), 具 体 代码 如 文件 4-3 所 示 。 

文件 4-3 CleanJob.java 
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4. 编写 实现 处 理 技能 数据 的 方法 


在 CleanJob 类 中 添加 方法 killResult() ,用 于 将 技能 数据 以 *-” 为 分 隔 符 进行 分 隔 , 生 成 
新 的 字符 串 数据 ,具体 代码 如 文件 4-4 所 示 。 
文件 4-4 CleanJob.java 


5. 编写 实现 数据 清洗 的 主 方法 


在 CleanJob 类 中 添加 方法 resultToString() 将 数据 文件 中 的 每 一 条 职位 信息 数据 进行 
处 理 并 重新 组 合成 新 的 字符 串 形式 ,具体 代码 如 文件 4-5 所 示 。 
文件 4-5 CleanJob.java 
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18 everyDataJson.getJSONArray(“"companyLabelList"): 
19 /获取 职位 信息 中 的 技能 标签 数据 

20 JSONArray skillLables = 

21 everyDataJson.getJSONArray("“skillLables"): 
2 /处 理 薪 资 字段 数据 

23 String salaryNew = deleteString(salary k): 

24 String welfare =mergeString(positionAdvantage, 

25 companyLabelLisb: 

26 String kill =killResult(skillLables); 

27 if (i ==jobdatalength)- 1) { 

28 jobResultData =jobResultData +city +"," 

29 +salaryNew +"," +welfare +"," +kill: 

30 } 

31 else { 

到 jobResultData =jobResultData +city +"," 

33 +salaryNew +"," +welfare +"," +kill +\n": 

34 } 

35 } 

36 return jobResultData: 

37} 


针对 上 述 代 码 进行 如 下 介绍 。 

第 3 行 代码 定义 字符 串 类 型 的 全 局 变量 jobResultData, 用 于 存储 每 条 职位 数据 中 的 薪 
资 ,城市 .福利 标签 和 技能 标签 这 四 个 字段 合并 后 的 字符 串 内 容 , 并 作为 方法 的 返回 值 ( 最 终 
的 数据 清洗 结果 ) 。 

第 4 一 35 行 代码 通过 for 循环 遍历 JSONArray 数组 jobdata( 每 个 数据 文件 包含 的 15 
条 职位 信息 数据 内 容 ) ,实现 从 每 一 条 职位 信息 数据 中 提取 薪资 .城市 ,福利 标签 和 技能 标签 
数据 。 

第 23 一 26 行 代码 调用 处 理 数 据 的 方法 对 提取 的 薪资 .福利 标签 和 技能 标签 数据 进行 格 

第 27 一 35 行 代码 ,将 四 个 字段 的 数据 按照 指定 分 隔 符 合并 成 新 的 字符 串 ,为 了 避免 每 
个 数据 文件 中 的 最 后 一 条 职位 数据 与 下 一 个 数据 文件 中 的 第 一 条 职位 数据 间 产 生 空 行 , 因 
此 在 整理 最 终 输 出 数据 时 要 对 这 两 种 情况 以 计 判 断 的 形式 分 开 处 理 。 

下 面 将 讲解 如 何 编写 Mapper 类 ,实现 Map 任务 ,也 就 是 说 ,如 何在 Mapper 类 中 直接 
调用 清洗 类 中 的 resultToString() 方 法 ,从 而 实现 在 Map 任务 中 对 数据 的 清洗 。 


4.3.3 创建 实现 Map 任务 的 Mapper 类 


在 jobcase-clean 工程 的 com.position.clean 包 下 创建 一 个 名 称 为 CleanMapper 的 类 ,用 
于 实现 MapReduce 程序 的 Map 方法 ,具体 实现 步骤 如 下 所 示 。 

(1) Hadoop 提供 了 一 个 抽象 的 Mapper 基 类 ,Map 程序 需要 继承 这 个 基 类 ,并 实现 其 
中 相关 的 接口 函数 ,因此 我 们 将 创建 的 CleanMapper 类 继承 Mapper 基 类 .并 定义 Map 程 
序 输入 和 输出 的 Key 和 Value, 如 文件 4-6 所 示 。 
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文件 46 CleanMapper.java 


1 public class CleanMapper extends Mapper<LongWritable, Text Text 
2 NullWritable> { 
So} 


定义 Map 程序 的 输入 二 K,V 二 分 别 为 二 LongWritable, Text 记 ,输出 的 二 K,V 放 为 
=Text, NullWritable> 。 

NullWritable 是 Writable 的 特殊 类 ,是 一 个 不 可 变 的 单 实例 类 型 , 它 不 从 数据 流 中 读 
数据 ,也 不 写 人 数据 ,只 充当 占 位 符 。 在 MapReduce 中 ,如 果 不 需要 使 用 键 或 值 , 就 可 以 将 
键 或 值 声明 为 NullWritable。 

(2) 在 Mapper 类 中 实现 承担 主要 的 处 理工 作 的 map() 方 法 ,map() 方 法 对 输入 的 键 什 
对 进行 处 理 ,如 文件 4-7 所 示 。 

文件 4-7 CleanMapper.java 


1  @veride 

六 protected void map(LongWritable key, Text value, Conte xt context) 
3 throws IOException, InterruptedException { 

4 String jobResultData ="": 

5 } 


在 上 述 代码 中 ,第 4 行 代码 定义 全 局 字符 串 变 量 jobResultData ,该 变量 作为 Map 程序 
输出 的 key 值 。 
(3) 数据 文件 中 包含 两 个 字段 code 和 content ,前 者 代表 响应 状态 码 ,后 者 代表 响应 的 
内 容 即 疏 取 的 数据 内 容 , 在 map() 方 法 中 定义 获取 content 字段 内 容 的 代码 ,如 文件 4-8 
所 示 。 
文件 4-8 CleanMapper.java 


/将 每 个 数据 文件 的 内 容 转 为 String 类 型 

String reptileData = value.toString(): 

/通过 截取 字符 串 的 方式 获取 content 中 的 数据 

String jobData =reptileData.substring( 
reptileDataindexOf("=" .reptileDataindexOf("=")+ 1)+ 1, 
TeptileData length()- 1): 


Duwhweb = 


在 上 述 代 码 中 ,第 2 行 代码 将 数据 文件 内 容 赋值 给 字符 串 变 量 reptileData; 第 4 一 6 行 
代码 定义 字符 串 变 量 jobData, 从 字符 串 reptileData 中 截取 content 字段 内 容 , 并 赋值 给 该 
变量 。 

(4) 在 content 字段 中 的 result 部 分 包含 职位 信息 数据 ,content 字段 的 数据 内 容 为 
JSON 格式 ,为 了 便于 从 content 字段 中 获取 result 部 分 的 数据 内 容 , 这 里 通过 将 content 字 
段 的 字符 串 形式 转 为 JSON 对 象形 式 来 获取 ,将 获取 的 result 内 容 传人 数据 转换 类 进行 处 
理 , 处 理 结果 作为 Map 输出 的 Key 值 ,如 文件 4-9 所 示 。 
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文件 4-9 CleanMapper.java 


| 
2 /获取 content 中 的 数据 内 容 

了 JSONObject contentJson =new JSONObject(jobData): 

4 String contentData =contentJson.getString(“content"): 

加 /获取 content 下 positionResult 中 的 数据 内 容 

6 JSONObject positionResultJson =new JSONObject(contentData): 
了 String positionResultData = 

8 PositionResultJson.getString( "positionResult ): 

9 /获取 最 终 result 中 的 数据 内 容 

10 JSONObject resultJson =new JSONObject(positionResultData): 
11 JSONArray resultData =resultJson.getJSONArray( “result"): 

Ey jobResultData = CleanJob.resultToString(resultData): 

13 context.write(new Text(jobResultData), NullWritable.get()): 

14 } catch (JSONException e) { 

15 e.printStackTrace(): 

16} 


在 上 述 代码 中 ,第 3 行 代码 将 字符 串 jobData 转 为 JSON 对 象 contentJson; 第 4 一 11 代 
码 行 从 content 中 获取 result 内 容 , 因 为 result 中 包含 15 条 职位 信息 数据 ,所 以 为 了 便于 将 
这 些 数据 带 入 清洗 类 中 的 resultToString() 方 法 进行 处 理 ,这 里 将 result 转 为 JSON 数组 对 
象 resultData; 第 12 行 代码 将 result 数组 对 象 作为 参数 传人 resultToString() 数 据 清洗 方法 
进行 处 理 , 将 处 理 后 的 结果 赋值 给 jobResultData; 第 13 行 代 码 将 jobResultData 作为 Map 
的 key 值 进行 输出 。 

因为 该 MapReduce 的 数据 清洗 程序 只 需要 Map 程序 ,所 以 该 数据 也 作为 整个 
MapReduce 程序 的 输出 ,至 此 整个 Mapper 类 编写 完成 。 


4.3.4 创建 并 执行 MapReduce 程序 


在 jobcase-clean 工程 的 com.position.clean 包 下 创建 一 个 名 称 为 CleanMain 的 类 ,用 于 
实现 MapReduce 程序 配置 ,具体 代码 如 文件 4-10 所 示 。 
文件 4-10 CleanMain.java 


1 public class CleanMain { 

2 public static void main(String[] args) throws IOException, 
3 ClassNotFoundException, InterruptedException { 

4 /控制 台 输出 日 志 

入 BasicConfigurator.configure(): 

6 1/ 初始 化 Hadoop 配置 

人 Configuration conf =new Configuration(): 

8 /定义 一 个 新 的 Job 第 一 个 参数 是 Hadoop 配置 信息 .第 二 个 参数 是 Job 的 名 字 
9 Job job =new Job(conf "job"): 

10 /设置 主 类 

11 job.setJarByClass(CleanMain .class): 

12 /设置 Mapper 类 

13 job.setMapperClass(CleanMapper class): 


14 /设置 job 输出 数据 的 key 类 
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5 job.setOutputKeyClass(Text.class): 
16 /设置 job 输出 数据 的 value 类 
这 job setOutputValueClass(NullWritable .class): 
18 /数据 输入 路 径 
19 FileInputFormat.addInputPath(job, 
20 new Path("hdfs://hadoop01:9000/JobData/20190807")): 
21 /数据 输出 路 径 
22 FileOutputFormat.setOutputPath(job, 
23 new Path("D:\\ JobData\ \ out"): 
24 System exit(job .waitForCompletion(true) ?0 : 1): 
25 |} 
26} 


本 节 实 现 的 MapReduce 程序 为 本 地 运行 模式 ,主要 用 于 对 程序 的 测试 ,在 4.4 节 中 将 
讲解 如 何 将 MapReduce 程序 提交 到 Hadoop 集群 中 运行 。MapReduce 程序 从 hdfs 存放 疏 
取 职 位 信息 数据 的 目录 读 取 数 据 文件 ,将 最 终 的 处 理 结果 输出 到 本 地 D 盘 目 录 下 。 和 运行 
MapReduce 程序 ,选中 Eclipse 的 MapReduce 程序 主 类 CleanMain, 布 击 选择 Run As 一 
Java Application 运行 程序 , 待 程序 运行 完成 后 在 "D: \\JobData\\out”" 目 录 下 使 用 文本 编 
辑 器 Notepad 十 十 打开 “part-r-00000” 文 件 查 看 最 终 输 出 结果 ,输出 结果 的 部 分 内 容 如 图 4-9 
所 示 。 


杭州 票 期 李 -员工 旅游 -五 金 -股票 司 旅游 - 跟 大 牛 共事 , 数据 挖掘 “ 
人 丰厚 年 终 - 局 平 管理 - 过 求 极 开 - 要- 阐 性 工作 - 股票 期 权 -奖金 丰厚 -福利 待遇 好 , 数据 仓库 - 数 [| 


库 开 
杭州 , 15-30, 绩效 奖金 -股票 期 权 -年 底 双 薪 - 专 项 奖金 -1618 薪 
杭州 , 15-22, 美女 多 -六 险 一 金 -快乐 高 效 文化 -绩效 奖金 -良好 发 展 空间 -六 险 一 金 ， Hadoop-Spark-Flink-Hiv 


k 京 , 10-20, 五 险 一 金 -年 底 双 薪 - 带 薪 年 假 -弹性 工作 -六 线 二 金 - 带 薪 年 假 -定期 团 建 ， 

深圳 , 12-18, 股票 期 权 - 交 通 补助 -扁平 管理 -领导 好 -SNS- 股 权 - 期 权 - 薪 资 优 泥 - 社 交大 咖 , 算法 -Hadoop-Hive 
长 沙 , 10-18, 绩效 奖金 - 带 薪 年 假 -通讯 津贴 -定期 体检 -六 险 一 金 -通讯 补助 - 带 薪 年 假 -13 薪 , Hadoop-Spark 
合肥 , 10-20, 技能 培训 -节日 礼物 -岗位 晋升 -五 险 一 金 -全 额 五 险 一 金 - 带 薪 年 假 -午餐 补助 -年 终 奖 , Hive-Had 
oop-Spark-Scala 

上 京 , 13-26, 服务 待遇 完善 ， 

上 京 , 13-26, 交通 补助 -午餐 补助 - 带 薪 年 假 -定期 体检 -项 级 团队 -金融 科技 , ETL-Hadoop- 数 据 仓 库 -数据 处 理 
人 35, 管理 规范 -帅哥 多 -美女 多 -定期 体检 -五 险 一 金 -周末 双 休 - 带 薪 年 假 -年 底 双 薪 , Hadoop-Java- 数 
长 沙 , 8-15, 年 底 双 薪 - 带 薪 年 假 -午餐 补助 -定期 体检 -五 险 一 金 一 餐 补 -节日 福利 - 双 休 - 旅 游 , 数据 挖掘 -数据 
分 析 -ETL- 数 据 处 理 

深圳 , 16-28, 上 市 公司 -领军 企业 -五 险 一 金 - 住 福 计划 -五 险 一 金 高 - 双 休 , 数据 分 析 -数据 处 理 -Hadoop 

上 海 , 12-24, 绩效 奖金 -弹性 工作 -年 终 奖金 -期 权 激励 , Hadoop-Spark-Java- 数 据 挖掘 

k 京 , 40-60, 技能 培训 -绩效 奖金 -年 度 旅游 -岗位 晋升 -五 险 一 金 周末 双 休 ， Hadoop: 架构 师 

上 京 , 50-80, 年 度 旅游 -定期 体检 -免费 健身 -交通 补助 -在 线 教育 行业 上 市 公司 ,数据 库 开发 -算法 -数据 处 理 - 、 


就 绪 ssh2: AES-256-CTR 21, 20 21 行 ,93 列 VT100 大 写 数字 | J 


4-9 最 终 处 理 结果 


4.4 将 数据 预 处 理 程序 提交 到 集群 中 运行 


为 了 MapReduce 程序 可 以 充分 利用 集群 的 资源 ,本 节 将 介绍 如 何 将 MapReduce 程序 
提交 到 集群 环境 下 运行 ,具体 实现 步骤 如 下 所 示 。 


1. 修改 MapReduce 程序 主 类 


在 4.3 节 的 基础 上 修改 MapReduce 程序 主 类 内 容 , 如 文件 4-11 所 示 。 
文件 4-11 CleanMain.java 


import javaio IOException: 
import org.apache.hadoop.conf.Configuration: 

import org.apache hadoop fs.Path: 

import org.apache.hadoop.io.Text: 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat: 
import org.apache.hadoop.mapreduce .lib.input.FileInputFormat: 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat: 
import org.apache.hadoop.util. GenericOptionsParser: 

10 import org.apache.log4j.BasicConfigurator: 

11 import com.position.clean.CleanMapper: 

12 public class CleanMain { 

13 public static void main(String[] args) throws IOException, 
14 ClassNotFoundException, InterruptedException { 


oo Or- 


15 /控制 台 输 出 日 志 

16 BasicConfigurator.configure(): 

I /初始 化 Hadoop 配置 

18 Configuration conf =new Configuration(): 

19 /从 hadoop 命令 行 读 取 参 数 

20 String[] otherArgs =new GenericOptionsParser(conf, args) 

21 .getRemainingArgs(); 

2 /判断 从 命令 行 读 取 的 参数 正常 是 两 个 ,分 别 是 输入 文件 和 输出 文件 的 目录 
23 if(otherArgs.length !=2) { 

24 Systemerr.println("Usage: wordcount <in><out> "): 

25 System.exit(2): 

26 } 

27 /定义 一 个 新 的 Job, 第 一 个 参数 是 Hadoop 配置 信息 ,第 二 个 参数 是 Job 的 名 字 
28 Job job =new Job(conf, “job"): 

29 /设置 主 类 

30 job.setJarByClass(CleanMain.class): 

31 /设置 Mapper 类 

job.setMapperClass(CleanMapper.class): 

33 /处 理 小 文件 .默认 是 TextInputFormat.class 

34 job.setInputFormatClass(CombineTextInputFormat.class): 

35 各 个 小 文件 之 和 不 能 大 于 2MB 

36 CombineTextInputFormat.setMinInputSplitSize(job. 2097152):/2MB 

37 /在 na 个 小 文件 之 和 大 于 2MB 情况 下 , 需 满足 n+ 1 个 小 文件 之 和 不 能 大 于 4MB 
38 CombineTextInputFormat.setMaxInputSplitSize(job, 4194304)://4MB 

39 /设置 job 输出 数据 的 key 类 

40 job.setOutputKeyClass(Text.class): 

41 /设置 job 输出 数据 的 value 类 

42 job.setOutputValueClass(Text.class): 

43 /设置 输入 文件 


4 FileInputFormat.addInputPath(job, new Path(otherArgs[0])): 
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45 /设置 输出 文件 

46 FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])): 
47 System .exit(job.waitForCompletion(true) 20 : 1): 

48 } 

49} 


上 述 代码 中 ,第 33 一 38 行 代 码 把 多 个 小 文件 合并 处 理 , 减 少 运 行 作业 的 Map Task 数 
量 以 提高 程序 运行 速度 ;第 43 一 46 行 代码 定义 在 集群 环境 下 运行 MapReduce 程序 的 Shell 
命令 中 ,第 一 个 参数 为 输入 数据 的 目录 ,第 二 个 参数 为 输出 结果 的 目录 。 


2. 创建 jar 包 


(1) 通过 Maven 将 数据 预 处 理 程序 打包 ,因为 编写 的 MapReduce 程序 是 通过 本 地 的 
Eclipse 工具 开发 ,所 以 需要 进入 Eclipse 本 地 存放 项 目的 目录 ,如 图 4-10 所 示 进 入 预 处 理 
程序 本 地 项 目 目录 。 


国 | 回忆 : | jcbcase-dean = 0 Xx 
于 | 挤 二 ~^@ 
本 3 复制 路 径 Lr 打开 -国生 部 选 泽 
他 自 固 粘贴 快捷 方式 和 El Xx = 好 恒 - 四 8 全 部 取消 
国定 到 快 复制 ”粘贴 移动 到 复制 到 ”删除 重 售 名 。 新 奸 尾 性 国友 和 
速 访 问 头 亩 切 ” 文 伯 赤 ” 网 历史 记录 
前 由 板 组 织 新 奸 打开 选择 
4 ~ 个 | 轩 < 本 地 磋 盘 (Dj ，itcast ，workspace ，jobcase-cdean v| 昌 | | 搜索 jobcase-cdean" Pp 
》 者 快 囊 六 问 至 I 太 | -| 立 
Y 加 此 电脑 .settings src 一 
》 尖 本 地 磋 盘 (Cj 
》 二 本 地 硬盘 (DJ) 
> 目 Lemon (6) 
> Lemon(E) 
>， 只 网 络 
6 个 项 目 用 加 


图 4-10 本 地 项 目 目录 


(2) 按 住 键盘 上 的 Shift 键 , 用 鼠标 右键 单 击 数据 预 处 理 项 目 所 在 目录 “D: Nitcast\ 
workspace\jobcase-clean” 的 空白 处 ,选择 “在 此 处 打开 PowerShell 窗口 ”, 如 图 4-11 所 示 。 

(3) 在 PowerShell 窗口 中 输入 mvn package 将 数据 预 处 理 程序 打 成 jar 包 , 如 图 4-12 
所 示 。 

注意 : 使 用 maven 命令 需要 在 本 地 安装 Maven 并 且 设 置 环境 变量 ,可 自行 参照 
“Maven 的 安装 与 配置 ?相关 内 容 进 行 操作 。 

(4) 命令 运行 完成 后 在 本 地 项 目 目录 的 target 目录 下 会 生成 一 个 包含 项 目 名 称 命名 的 
jar 包 “jobcase-clean-0.0.1-SNAPSHOT.jar”. 如 图 4-13 所 示 。 

为 了 便于 后 续 使 用 ,可 自行 修改 jar 包 名 称 , 这 里 将 jar 名 称 修改 为 clean.jar。 
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国 Windows PowerShell 


图 4-11 PowerShell 窗口 
全 Windows PowerShell 


sD 


I 2 
[YARNING] Usini i i build is platform| 


ault-compile) @ j 


0] Finished at 
0] Final NK 


图 4-12 打包 过 程 


3. 将 jar 包 提交 到 集群 运行 


(1) 将 clean.jar 上 传 到 hadoop01 服务 器 的 /export/software 目录 下 ,在 hadoop01 服务 
器 中 通过 执行 指令 cd /export/software 进入 到 /export/software 目录 下 ,在 该 目录 下 执行 
指令 zz 将 jar 包 上 传 至 export/software 目录 ,如 图 4-14 所 示 。 

(2) 在 hadoop01 中 运行 hadoop jar 命令 执行 数据 预 处 理 程序 的 jar 包 , 在 命令 中 指定 
数据 输入 和 结果 输出 的 目录 ,指令 如 下 。 
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国 | 回国 |target —- OO x 
本 到 二 ss a 
本 复制 路 径 Lr 县 34- | 围 人 ia 
V 
Pe 
国定 到 快 复制 ”粘贴 移动 到 复制 到 油 从 重信 名 。 新 奸 国友 
迄 访 问 其 葛 切 S 文人 夫 ” 励 5Eie 妥 
葛 贴 板 组 织 新 奸 打开 远 泽 
Sy v 个 划 < itcast > workspace > jobcase-dean >target v5 | 搜索 "target P| 
i Po | 表 | 罗 
| 
加 此 电脑 dlasses 。 maven-arc maven-sta | testclasse | jobcase-dl 
高 本 地 磁盘 (Cj hiver tus s ean-0.0.1. 
SNAPSHO 
Tjar 
是 Lemon (E) 
是 Lemon (E) 
踪 网 络 
5 个 项 目 上 加 
图 4-13 jar 包 位 置 
TootGhadoop0T software]# rz 
图 远 择 使 用 Zmodem 发 送 的 文件 


rz waiting to receive, 


开始 znoden 传输 。 按 Ctrl+C 取消 a 


查找 范围 0: 。 | 国 target 


克 本 矶 和 


classes maven-arc.. maven-sta.. test-classes 


口 以 AscI 方式 上 传 文件 W 


图 4-14 上 传 jar 包 


hadoop jar clean.jar com.position.clean.CleanMain /JobData/20190807/ 

/TobData/output 

待 程 序 运 行 完 成 后 ,通过 验证 程序 是 否 执行 成 功 ,运行 hadoop 命令 “hadoop dfs -ls / 
JobData/output/” 查 看 /JobData/output 目录 下 是 否 生 成 文件 ,如 图 4-15 所 示 。 


A DED 


[root@hadoop01 J]# hadoop dfs -ls /JobData/output/ 
DEPRECATED: Use of this script to execute hdfs comand is deprecated. 
Instead use the hdfs command for it. 


itens 

3 root supergroup 0 2019-07-31 06:37 /JobData/output/_SUCCESS 

3 root supergroup 53479 2019-07-31 06: 37 /JobData/ output/part-r-00000 
[root@hadoop01 “]# 四 


ssh2: AES-256-CTR 8, 20 27 行 , 1115 VT100 大 写 数字 | 
4-15 ”验证 程序 是 否 执行 成 功 


生成 如 图 4-15 所 示 文 件 证 明 数 据 预 处 理 程序 运行 成 功 ,通过 hadoop 命令 “hadoop dfs - 
cat /JobData/output/part-r-00000” 查 看 最 终 数据 内 容 , 如 图 4-16 所 示 。 


es 


root@hadoopdl "JH hadoop dfs -cat /JobData7routput/part-r-00000 
DEPRECATED: Use of this script to execute hdfs command is deprecated. 
Instead use the hdfs command for it. | 


上 海 , 10-15, 五 险 一 金 -旅游 体检 -年 终 奖 -过 节 惕 , Hadoop-Spark 
北京 , 12-20, 五 


险 一 金 -年 底 双 幸 -~ 带 菏 年 假 -弹性 工作 -16 东 -有 出 差 补贴 -公司 氛围 好 , 运 维 -Linux-Hadoop 
北京 , 15-30, 节日 礼物 -年 底 双 汞 -股票 期 权 - 带 未 年 假 -技术 大 牛 -行业 前 景 好 ,ETL-Java-Hadoop-Scala 
上 海 , 15-25, 绩效 奖金 - 带 薪 年 假 -交通 补助 -节日 礼物 -福利 好 -工作 氛围 佳 , Hive-Spark- 数 据 架 构 -数据 仓库 
成 都 , 10-20, 节日 礼物 -专项 奖金 -股票 期 权 - 带 荡 年 假 -绩效 奖金- 五 险 一 金 - 带 幸 年 假 - 弹 性 工作 , 数据 挖掘 -数据 分 析 
上 海 , 15-25, 专项 奖金 - 带 薪 年 假 -定期 体检 -交通 补助 -待遇 高 -环境 好 -有 前 景 ,Hadoop-Java- 数 据 仓库 -数据 库 开发 
上 海 , 10-20, 五 险 一 金 -体检 -旅游 -年 终 奖 -假期 福利 , Hive-Spark- 数 据 仓库 -数据 库 开发 
北京 , 13-26, 股权 激励 , null 
深圳 , 13-26, 免费 班车 -成 长 空间 -年 度 旅 -前 景 好 - 项 目 新 ,JiySQL-Java-Hadoop- 数 据 分 析 
上 海 , 13-26, 扁平 化 管理 -领导 nice- 福 利好 , 
广州 , 12-20, 年 度 旅游 -六 险 一 金奖 费 补 增 -周末 一 金 -多 费 补贴 , 数据 仓库 -Java-JlySQL 
南京 , 15-20, 带 医 年 假 -年 终 分 红 -定期 体 票 期 权 -发 展 空间 大 -团队 所 MySQL-Oracle-Spark-Hive 
广州 , 10-18, 颜 值 高 - -高 大 上 团 建 假 -高 速 发 展 -创业 团队 -技术 氛围 -业务 导向 , Hadoop- 数 据 挖掘 -数据 分 析 
杭州 , 20-40, 工程 师 性 工作 -扁平 管理 -上 班 不 打卡 -成 长 迅速 - 平台 够 大 - 牛人 够 多 -福利 够 丰富 , 后 端 -Hadoop 
上 海 , 15-25, 带 攻 年 奖金 -岗位 于 升 -美女 多 -五 险 一 金 -节日 福利 ,nul1 
上 海 , 10-20, 带 薪 休 礼金 -体检 旅游 -年底 奖金 , Hadoop-Spark-Java- 数 据 库 开发 
深圳 , 13-25, 带 就 年 工作 时 间 -~ 年 度 旅游 -岗位 晋升 -3 亿 用 户 - 大 咖 多 -氛围 好 -福利 优厚 , Hive-Hadoop-Spark 
深圳 , 12-17， 年 反胃 期 体检 -绩效 奖金 -技能 培训 -五 险 一 金 -员工 旅 游 - 定 期 体检 -年 终 奖金 , Hive-Hadoop- 数 据 仓库 
深圳 , 12-22, 金融 银行 发 展 前 景 大 ,数据 分 析 -Hadoop-DB2 
北京 , 15-25, 带 医 年 效 奖金 -岗位 壮 升 -扁平 管理 -平台 大 -福利 待遇 好 -技术 氛围 浓 ~ 美女 如 云 , Spark-Scala-Hive-Hadoop 
深圳 , 15-20, 六 险 一 化 管理 -丰厚 年 终 -丰富 技术 交流 -五 险 一 金 -~ 带 蓝 年 假 -节日 福利 ,Java-Python-Hadoop 
北京 , 15-30, 国内 唯 全 量 数 据 服务 公司 ,ETL- 数 据 仓库 -数据 架构 -数据 处 理 
杭州 15-30, 技能 培训 -节日 礼物 -股票 期 机- 专项 奖金 -五 险 一 多 -股票 期 权 -弹性 工作 ,数据 挖掘- 数据 仓库 v 
就 绪 ssh2: AES-256-CTR 27, 20 27 行 ,1115 VT100 大 写 数字 


图 4-16 查看 HDFS 上 的 数据 


注意 : 如 果 出 现 中 文字 符 乱 码 情 况 , 通 过 设置 SecureCRT 访问 窗口 的 字符 编码 即 可 ， 
在 会 话 窗口 处 右 击 一 会 话 选项 外观 将 字符 编码 设置 成 UTF-8, 设 置 完 成 后 再 次 运行 查看 
HDFS 上 数据 的 命令 即 可 ,如 图 4-17 和 图 4-18 所 示 。 

至 此 ,通过 MapReduce 的 数据 预 处 理 程 序 得 到 了 格式 规范 的 职位 数据 内 容 , 在 后 续 一 
章 中 将 利用 这 些 数 据 进 行 数据 分 析 工 作 。 
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证 可 将 
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图 4-17 会 话 选项 


样式 @ 反 转 影像 M) 〇 粗 体 (6) 


图 4-18 设置 会 话 窗口 的 字符 编码 
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小 结 


本 章 主要 讲解 数据 预 处 理 程序 的 编写 ,通过 分 析 预 处 理 数 据 和 设计 数据 预 处 理 方 案 实 
现 数据 预 处 理 程 序 。 本 章 的 学 习 内 容 主 要 包括 实现 数据 预 处 理 程 序 的 流程 和 MapReduce 
程序 的 运行 与 编写 。 通 过 本 章 的 学 习 , 读 者 可 以 掌握 利用 MapReduce 分 布 式 处 理 框 架 进 行 
数据 预 处 理 的 技巧 ,熟悉 数据 预 处 理 的 流程 。 


第 5 董 
数据 分 本 


学 习 目标 


。 了 解数 据 分 析 ; 

。 了 解数 据 仓 库 ; 

。 掌握 Hive 的 操作 ; 

。 掌握 HQL 语句 的 使 用 。 


大 数据 价值 链 中 最 重要 的 一 个 环节 就 是 数据 分 析 ,其 目标 是 提取 数据 中 隐藏 的 数据 , 提 
供 有 意义 的 建议 以 辅助 制定 正确 的 决策 。 通 过 数据 分 析 , 人 们 可 以 从 杂乱 无 章 的 数据 中 从 
取 和 提炼 有 价值 的 信息 ,进而 找 出 研究 对 象 的 内 在 规律 。 本 章 将 介绍 如 何 通过 数据 分 析 技 
术 对 第 4 章 预 处 理 后 的 数据 进行 相关 分 析 。 


5.1 数据 分 析 概 述 


数据 分 析 是 指 用 适当 的 统计 分 析 方 法 对 收集 来 的 大 量 数据 进行 分 析 , 从 行业 角度 看 , 数 
据 分 析 是 基于 某 种 行业 目的 .有 针对 性 地 进行 收集 ,整理 ,加工 和 分 析 数 据 的 过 程 , 通 过 提取 
有 用 信息 ,从 而 形成 相关 结论 ,这 一 过 程 也 是 质量 管理 体系 的 支持 过 程 。 数 据 分 析 的 作用 包 
含 推测 或 解释 数据 并 确定 如 何 使 用 数据 .检查 数据 是 否 合法 ,为 决策 提供 参考 建议 .诊断 或 
推断 错误 原因 以 及 预测 未 来 等 作用 。 

数据 分 析 的 方法 主要 分 为 单纯 的 数据 加 工 方法 、 基 于 数理 统计 的 数据 分 析 、 基 于 数据 挖 
掘 的 数据 分 析 以 及 基于 大 数据 的 数据 分 析 。 其 中 ,单纯 的 数据 加 工 方法 包含 描述 性 统计 分 
析 和 相关 分 析 ; 基 于 数理 统计 的 数据 分 析 包 含 方差 .因子 以 及 回归 分 析 等 :基于 数据 挖掘 的 
数据 分 析 包 含 聚 类 、 分 类 和 关联 规则 分 析 等 ;基于 大 数据 的 数据 分 析 包 含 使 用 Hadoop、 
Spark 和 Hive 等 进行 数据 分 析 。 本 书 通过 使 用 基于 大 数据 方法 的 数据 分 析 技 术 的 Hive 对 
某 招 聘 网 站 的 职位 数据 进行 分 析 。 


s.2 Hive 数据 仓库 


5.2.1 什么 是 Hive 


Hive 是 建立 在 Hadoop 分 布 式 文件 系统 上 的 数据 仓库 , 它 提供 了 一 系列 工具 ,能 够 对 
存储 在 HDFS 中 的 数据 进行 数据 提取 转换 和 加 载 ,这 是 一 种 可 以 存储 、 查 询 和 分 析 存 储 在 
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Hadoop 中 的 大 规模 数据 的 工具 。 

Hive 定义 了 简单 的 类 SQL 查询 语言 . 称 为 HQL, 它 可 以 将 结构 化 的 数据 文件 映射 为 
一 张 数据 表 ,允许 熟悉 SQL 的 用 户 查 询 数 据 , 也 允许 熟悉 MapReduce 的 开发 者 开发 自 定义 
的 mapper 和 reducer 来 处 理 内 建 的 mapper 和 reducer 无 法 完成 的 复杂 的 分 析 工 作 , 相 对 
于 Java 代码 编写 的 MapReduce 来 说 ,Hive 的 优势 更 加 明显 。 

由 于 Hive 采 用 了 类 SQL 的 查询 语言 HQL .因此 很 容易 将 Hive 理解 为 数据 库 。 其 实 
从 结构 上 来 看 ,Hive 和 数据 库 除了 拥有 类 似 的 查询 语言 , 青 无 类 似 之 处 。 我 们 以 传统 数据 
库 MySQL 和 Hive 的 对 比 为 例 , 通 过 它们 的 对 比 来 帮助 读者 理解 Hive 的 特性 ,具体 如 表 5-1 
所 示 。 


表 5-1 Hive 与 传统 数据 库 对 比 


对 比 项 Hive MySQL 

查询 语言 HQL SQL 

数据 存储 位 置 HDFS 块 设备 .本 地 文件 系统 
数据 格式 用 户 定义 系统 决定 

数据 更 新 不 支持 支持 

事务 不 支持 支持 

执行 延迟 高 低 

可 扩展 性 高 低 

数据 规模 大 小 

多 表 插入 支持 不 支持 


5.2.2 设计 Hive 数据 仓库 


在 数据 仓库 设计 中 ,一 般 会 围绕 着 星 状 模型 和 雪花 模型 来 设计 数据 仓库 的 模型 。 在 这 
里 ,针对 招聘 网 站 的 职位 数据 分 析 项 目 .我 们 将 Hive 数据 仓库 设计 为 星 状 模型 , 星 状 模型 
是 由 一 张 事实 表 和 多 张 维 度 表 组 成 。 接 下 来 ,通过 一 张 图 来 讲解 设计 的 星 状 模型 数据 仓库 ， 
具体 如 图 5-1 所 示 。 


维度 表 维度 表 
t_salary_detail t_company_detail 
事实 表 
ods_jobdata_origin 
维度 表 维度 表 
tcity detail t_kill_ detail 


图 5-1 星 状 模型 示意 图 
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在 图 5-1 中 的 ,事实 表 为 ods_jobdata_origin 表 ( 俗 称 窗 表 ) ,主要 用 于 存储 业务 的 主体 
数据 ;维度 表 有 tt_salary_detail\t_company_detail、t_city_detail 以 及 t_kill_detail 表 ,主要 用 
于 存储 业务 分 析 结 果 数 据 。 

下 面 我 们 详细 讲解 数据 仓库 中 事实 表 和 维度 表 的 表 结 构 , 具 体 如 下 。 


1. 事实 表 ods_jobdata_origin 


事实 表 ods_jobdata_origin 主要 用 于 存储 MapReduce 计算 框架 清洗 后 的 数据 ,其 表 结 
构 如 表 5-2 所 示 。 


表 5-2 事实 表 ods_jobdata_origin 的 表 结 构 


字 段 数据 类 型 描 述 
city String 城市 
salary array< String> 薪资 
company array< String> 福利 标签 
kill array< String> 技能 标签 


从 表 5-2 可 以 看 出 ,上 述 字段 即 为 MapReduce 初步 预 处 理 后 的 数据 字段 。 

在 表 5-2 中 ,事实 表 ods_jobdata_origin 的 表 名 前 级 为 ods(Operational Data Store) , 指 
的 是 操作 型 数据 存储 ,作用 是 为 使 用 者 提供 当前 数据 的 状态 , 且 具 有 及 时 性 ,操作 性 、 集 成 性 
的 全 体 数据 信息 。 

2. 维度 表 t_salary_detail 


维度 表 t_salary_detail 主要 用 于 存储 薪资 分 布 分 析 的 数据 ,其 表 结构 如 表 5-3 所 示 。 


表 5-3 t_salary_detail 表 


字 段 数据 类 型 描 述 
salary String 薪资 分 布 区 间 
count Int 区 间 内 出 现 薪资 的 频次 


3. 维度 表 t_company_detail 


维度 表 t_company_detail 主要 用 于 存储 福利 标签 分 析 的 数据 ,其 表 结 构 如 表 5-4 所 示 。 
表 5-4 tcompany_detail 表 


字 段 数据 类 型 描 述 
company | String | 每 个 福利 标签 
count Int 每 个 福利 标签 的 频次 


4. 维度 表 t_city_detail 


维度 表 t_city_detail 主要 用 于 存储 城市 分 布 分 析 的 数据 ,其 表 结 构 如 表 5-5 所 示 。 


表 5-5 t_city detail 表 


字 段 数据 类 型 描 述 
city String 城市 
count Int 城市 频次 


5. 维度 表 t_kill_detail 
维度 表 t_kill_detail 主要 用 于 存储 技能 标签 分 析 的 数据 ,其 表 结 构 如 表 5-6 所 示 。 


表 5-6 t_kill_detail 表 


字 自 数据 类 型 描 述 
kill String 每 个 技能 标签 
count Int 每 个 技能 标签 的 频次 


5.2.3 ”实现 数据 仓库 


由 于 我 们 使 用 基于 大 数据 分 析 方 法 的 Hive 对 招聘 网 站 的 职位 数据 进行 分 析 , 因 此 需 
要 将 采集 到 的 职位 数据 进行 预 处 理 后 ,加 载 到 Hive 数据 仓库 中 ,后 续 进 行 相关 分 析 。Hive 
数据 仓库 的 部 署 步 又 ,具体 如 下 。 


1. 创建 数据 仓库 


启动 Hadoop 集群 后 ,在 主 节点 hadoop01 上 启动 Hive 服务 端 ,创建 名 为 “jobdata” 的 数 
据 仓 库 , 命 令 如 下 。 


hive >create database jobdata: 


创建 成 功 后 通过 use 命令 使 用 jobdata 数据 仓库 ,按照 5.2.2 节 介绍 的 项 目 数据 仓库 模 
型 ,创建 相应 的 表 结构 。 


2. 创建 事实 表 
创建 存储 原始 职位 数据 的 事实 表 ods_jobdata_origin ,命令 如 下 。 


hive >CREATE TABLE ods_jobdata_origin( 
city string COMMENT 城市 、 
salary array<Stringe> COMMENT 薪资 
company array< String> COMMENT ' 福 利 … 
kill array< String> COMMENT 技能 ) 
COMMENT ' 原 始 职位 数据 表 ' 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY … 
COLLECTION ITEMS TERMINATED BY ~ 
STORED AS TEXTFILE: 
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上 述 命令 中 ,创建 事实 表 语 法 的 各 项 参数 说 明 如 下 。 

(1) CREATE TABLE: 创建 一 个 指定 名 字 的 表 。 

(2) COMMENT: 后 面 跟 的 字符 串 是 给 表 字 段 或 者 表 内 容 添 加 注释 说 明 的 ,虽然 它 对 
于 表 之 间 的 计算 没有 影响 ,但 是 为 了 后 期 的 维护 ,所 以 实际 开发 都 是 必须 要 加 
COMMENT 的 。 

(3) ROW FORMAT DELIMITED: 用 来 设置 创建 的 表 在 加 载 数据 的 时 候 支持 的 列 分 
隔 符 。 不 同 列 之 间 默 认 用 一 个 \001' 分 隔 , 集 合 (例如 array,map) 的 元 素 之 间 默 认 以 \002' 隔 
开 ,map 中 key 和 value 默认 用 \003' 分 隔 。 

(4) FIELDS TERMINATED BY: 指定 列 分 隔 符 , 本 数据 表 指 定 逗 号 作为 列 分 隔 符 。 

(5) COLLECTION ITEMS TERMINATED BY: 指定 array 集合 中 各 元 素 的 分 隔 符 ， 
本 数据 表 以 *-” 作 为 分 隔 符 。 

(6) STORED AS TEXTFILE: 表示 文件 数据 是 纯 文本 。 


3. 导入 预 处 理 数据 到 事实 表 


由 于 第 4 章 数 据 预 处 理 程序 的 运行 结果 将 预 处 理 完成 的 数据 存储 在 HDFS 上 的 
/JobData/output/part-r-00000 文件 中 ,因此 通过 Hive 的 加 载 命 令 将 HDFS 上 的 数据 加 载 
到 ODS 层 的 事实 表 ods_jobdata_origin 中 ,命令 如 下 。 


hive >LOAD DATA INPATH ‘/JobData/output/part- r- 00000 OVERWRITE INTO TABLE ods_jobdata_origin: 
通过 select 语句 查看 表 数 据 内 容 , 验 证 数据 是 否 导入 成 功 , 命 令 如 下 。 
hive > select * from ods_jobdata_origin: 


如 果 返 回 数据 信息 , 则 证 明 数据 加 载 成 功 ,否则 需要 查看 数据 文件 中 分 隔 符 是 否 与 表 设 
置 的 分 隔 符 匹 配 ,文件 目录 是 否 正确 等 细节 问题 。 执 行 上 述 命令 后 的 效果 如 图 5-2 所 示 。 
从 图 5-2 可 以 看 出 ,执行 完 查询 命令 后 ,返回 了 数据 , 则 说 明 数 据 加 载 成 功 。 


4. 明细 表 的 创建 与 加 载 数据 


创建 明细 表 ods_jobdata_detail, 用 于 存储 细 化 薪资 字段 的 数据 , 即 对 薪资 列 进行 分 列 
处 理 , 将 薪资 拆 分 形成 高 薪资 、. 低 薪资 两 列 ,并 新 增 一 列 为 平均 薪资 ,平均 薪资 是 通过 最 低 薪 
资 和 最 高 薪资 相 加 的 平均 值得 出 ,命令 如 下 。 


hive > create table ods_jobdata_detail( 
city string comment ' 城 市 

salary array< String>comment 薪资 
company array< String> comment 福利. 
il array< String> comment ' 技 能 
low_salary int comment ' 低 薪资 
high_salary int comment 高 薪资 


avg_salary double comment 平均 薪资 ) 
COMMENT 职位 数据 明细 表 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY 
STORED AS TEXTFILE: 


A 


[技能 培训 *, “领导 好 ”, “美女 多 ”, “帅哥 多 “, “六 险 一 爹 *] ["“ 数 据 仓 库 “, “Hadoop”, “Spark”, “R 
【* 商 位 晋升 “, “管理 规范 “,“ 带 幕 年 候 ", “交通 补助 “, “交通 便利 *, “团队 氛围 好 “, “有 上 升 空间 ] [ 
让 节日 礼物 “， 人 “ 带 莫 年 假 ",“ 肩 平 管理 "六 险 一 全 "绩效 奖 全 "弹性 工作 "， 全 员 mac” 


,Spark”, "Storm”] 
[免费 班车 “成 长 空间 “年 度 旅游 ”,“ 商 位 置 升 ", 平台"] 。。“[" 架 构 师 “] 
五 险 一 金 ", “节日 福利 ”, “ 带 医 年 篇”] “nul1” 


[" 年 底 双 医 ",* 专 项 奖 全 "…,“ 服 票 期 权 ", “绩效 奖 全 
.关押 候 绩效 奖金 … 认 管理 “定期 体检 "五 险 一 全 …“ 大 牛 团队 "万 攻 志 束 "… 径 检 和 轩 
个 芋 疙 ,颁发 展 "牛人 从 多， 产品 守 详 “太平 结 构成 长 异 ] CHadoop"， 后 这 
委 … 这 和 站 机 涡 可 让 ”全 要 要 开 -。 五 全 -aaoop-7-Saex， 娄 所 诛 开 发 
六 居 失 中 -各 昌 过 贡生 虹 ， 领 居 -公司 过 畦 李宁 让 二 o op 
,专项 奖 全 “绩效 奖 全 ",* 交 通 补助 "，“ 有 竞争 力 的 加 一 "广阔 的 发 展 空间 "] "null 
“ 岳 效 奖 全 "，" 年 谋 双 莫 “, 交 通 补助 "， 移 饮 补贴 "优秀 的 研发 团队 “,“ 良 好 的 团队 和 
”9 测 性 工作 时 间 ,年度 放淤 -,“ 商 位 置 和 -3 亿 用 户 -, “所 国 好 ,发 展 空间 大 -， “福利 


["Hive”, “Hadoop”, “Java'] 
30"] [年底 双 蔓 “, “大 数据 ”,“ 带 幕 年 假 “, “通讯 津贴 “快速 发 展 ", “待遇 好 ”, “氛围 好 ”, “六 险 一 爹 ”] [ 
“Spark”, , "Hive”, “Scala”] 
Tine taken: 0.535 seconds, Fetched; 450 row(s) 击 
hive> 目 中 
~ 
就 绪 ssh2: AES-256-CTR 28,，7 28 行 , 1235VT100 大 瑟 数字 


图 5-2 查询 表 数 据 


创建 完 明 细 表 后 ,就 可 以 向 ods_jobdata_detail 表 中 加 载 数据 ,加 载 数 据 的 命令 如 下 。 


hive >insert overwrite table ods_jobdata_detail 
select city,salary,.company,kill.salary[0],salary[1], 
(salary[0]+ salary[1])/2 from ods_jobdata_origin: 


需要 注意 的 是 ,select 语句 中 字段 的 顺序 应 与 明细 表 创 建 时 的 字段 顺序 一 致 。 
5. 创建 中 间 表 


(1) 对 薪资 字段 内 容 进行 扁平 化 处 理 , 将 处 理 结果 存储 到 临时 中 间 表 t_ods_tmp_ 
salary ,命令 如 下 。 


hive > create table t_ods_tmp_salary as select explode(ojo.salary) from ods_jobdata_origin ojo: 


上 述 命令 使 用 explode() 函数 将 salary 字段 的 array 类 型 数据 进行 遍历 ,提取 数组 中 的 
每 一 条 数据 。 

(2) 对 t_ods_tmp_salary 表 的 每 一 条 数据 进行 泛 化 处 理 , 将 处 理 结果 存储 到 中 间 表 
t_ods_tmp_salary_dist ,命令 如 下 。 
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上 述 命令 使 用 条 件 判 断 函 数 case, 对 t_ods_tmp_salary 表 的 每 一 条 数据 进行 泛 化 处 理 ， 
指定 每 一 条 数据 所 在 区 间 。 

(3) 对 福利 标签 字段 内 容 进行 扁平 化 处 理 , 将 处 理 结果 存储 到 临时 中 间 表 t_ods_tmp_ 
company, 命 令 如 下 。 


上 述 命令 使 用 explode() 函 数 将 company 字段 的 array 类 型 数据 进行 遍历 ,提取 出 数组 
中 的 每 一 条 数据 。 

(4) 对 技能 标签 字段 内 容 进 行 扁平 化 处 理 , 将 处 理 结果 存储 到 临时 中 间 表 t_ods_tmp_ 
kill, 命 令 如 下 。 


上 述 命令 使 用 explode() 函数 将 kill 字段 的 array 类 型 数据 进行 遍历 ,提取 出 数组 中 的 
每 一 条 数据 。 


6. 创建 维度 表 
(1) 创建 维度 表 t_ods_kill, 用 于 存储 技能 标签 的 统计 结果 ,命令 如 下 。 


(2) 创建 维度 表 t_ods_company, 用 于 存储 福利 标签 的 统计 结果 ,命令 如 下 。 


(3) 创建 维度 表 t_ods_salary, 用 于 存储 薪资 分 布 的 统计 结果 ,命令 如 下 。 


(4) 创建 维度 表 t_ods_city, 用 于 存储 城市 的 统计 结果 ,命令 如 下 。 


5.3 分析 数据 


在 实际 开发 中 ,统计 指标 可 能 会 不 断 地 变化 。 这 里 指定 的 统计 指标 为 招聘 网 站 的 职位 
区 域 分 布 、 职 位 薪资 统计 、 公 司 福利 分 析 以 及 职位 的 技能 要 求 统计 。 本 节 将 通过 编写 HQL 
语句 对 职位 区 域 `. 职 位 薪资 公司 福利 以 及 职位 技能 要 求 数据 进行 分 析 。 


5.3.1 职位 区 域 分 析 
通过 对 大 数据 相关 职位 区 域 分 布 的 分 析 , 帮 助 读者 了 解 该 职位 在 全 国 各 城市 的 需求 状 
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况 , 通 过 对 事实 表 ods_jobdata_origin 提取 的 城市 字段 数据 进行 统计 分 析 , 并 将 分 析 结 果 存 
储 在 维度 表 t_ods_city 中 ,命令 如 下 。 


hive >insert overwrite table t_ods_city 
select city.count(1) from ods_jobdata_origin group by city: 


查看 维度 表 t_ods_city 中 的 分 析 结 果 , 使 用 sort by 参数 对 表 中 的 count 列 进行 逆序 排 
序 , 命 令 如 下 。 


hive > select * from t_ods_city sort by count desc: 


执行 上 述 语句 后 ,效果 如 图 5-3 所 示 。 


a ee 


ED x rT dp 


Stage-Stage-l: Map: 1 Reduce 1 Cunulative CPU 3.54 sec HDFS Read 6014 HDFS Write 340 SUCCESS A 
Total NapReduce CPU Tine Spent: 3 seconds 540 nsec 

Ok 

北京 94 

上 海 。 86 

深圳 68 

杭州 53 

广州 47 

成 都 23 

武汉 18 

南京 13 

长 沙 10 

厦门 ”10 

苏州 6 

西安 5 

重庆 5 

福州 3 

大 连 2 

宁波 1 

合肥 1 

郑州 1 

烟台 1 

长 春 1 

佛山 1 

天 津 1 

Time taken: 20. 442 seconds, Fetched: 22 row(s) 

hive v 
就 绪 ssh2: AES-256-CTR 27, 7 27 行 ,1025 VT100 大 写 数字 


图 5-3 城市 分 布 分 析 结 果 


通过 观察 图 5-3 的 分 析 结 果 , 可 以 得 出 如 下 三 条 结论 。 

(1) 大 数据 职位 的 需求 主要 集中 在 大 城市 ,其 中 最 多 的 是 北京 ,其 次 分 别 是 上 海 和 深圳 。 

(2) 一 线 城市 (北上 广 深 ) 占 据 前 几 名 的 位 置 ,然而 杭州 这 座 城市 对 大 数据 职位 的 需求 
也 很 高 ,超越 广州 ,次 于 深圳 ,阿里 巴巴 这 个 互联 网 巨头 应 该 起 到 不 小 的 带领 作用 。 

(3) 四 座 一 线 城市 北上 广 深 加 上 杭州 这 五 座 城市 的 综合 占 总 体 需 求 的 77%( 北 上 广 深 
杭 频 次 总 和 /所 有 城市 频次 总 和 ) , 甩 开 其 他 城市 很 大 一 段 距离 , 想 参 加 大 数据 相关 职位 的 从 
业者 可 先 从 这 几 个 城市 考虑 ,机 遇 相 比 会 高 出 很 多 。 


5.3.2 ”职位 薪资 分 析 


通过 对 职位 薪资 分 析 , 了 解 大 数据 职位 在 全 国 以 及 在 全 国 各 城市 的 薪资 情况 ,本 节 主 要 
从 三 个 分 析 点 对 薪资 数据 进行 分 析 , 具 体操 作 流 程 如 下 所 示 。 


第 5 章 数据 分 析 


1. 全 国 薪资 分 布 情况 


通过 中 间 表 t_ods_tmp_salary_dist 提取 薪资 分 布 数 据 进 行 统 计 分 析 , 将 分 析 结 果 存 储 
在 维度 表 t_ods_salary 中 ,命令 如 下 。 


hive >insert overwrite table t_ods_salary 
select *_cO",count(1) from t_ods_tmp_salary_dist group by ~_cO: 


因为 创建 临时 表 t_ods_tmp_salary_dist 时 使 用 的 是 “create table as select” 语 句 , 该 语 
句 不 可 以 指定 列 名 ,所 以 默认 列 名 为 “c0、cl ,在 访问 的 时 候 需 要 加 上 “` 符 号 ,需要 注意 的 是 
这 里 的 符号 是 ` 而 不 是 ', 所 以 应 该 这 样 写 : select 、c0' from xxx。 

查看 维度 表 t_ods_salary 中 的 分 析 结 果 , 使 用 sort by 参数 对 表 中 的 count 列 进行 逆序 
排序 ,命令 如 下 。 


hive >select * from t_ods_salary sort by count desc: 


执行 上 述 语句 后 ,效果 如 图 5-4 所 示 。 


jSD 汪 移 , 纺 入 主机 <Alt+R> 


Kill Command = /export/servers/hadoop-2. 7. 4/bin/hadoop job -kill job_1564206858205_0079 
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1 
2019-07-31 23:37: 50, 882 Stage-l map = 0%, reduce = 0% 

2019-07-31 23: 37:56, 047 Stage-!l map = 100%, reduce = 0%, Cumulative CPU 1.25 sec 
2019-07-31 23: 38:01, 207 Stage-l map = 100%, reduce = 100%, Cumulative CPU 2.73 sec 


ad: 


Stage-Stage-1: Map: 1 Reduce: 1 CCumulative CPU: 2.73 sec HDFS Read: 6100 HDFS Write: 122 SUCCESS 
Total MapReduce CPU Time Spent: 2 seconds 730 msec 
OK 


Time taken: 17.165 seconds, Fetched: 14 row(s) 


hive> 目 Vv 
ssh2: AES-256-CTR 27, 7 27 行 1025VT100 | 大写 数字 


图 5-4 ”薪资 分 布 结果 


通过 观察 图 5-4 的 分 析 结 果 , 可 以 了 解 到 全 国 大 数据 相关 职位 的 月 薪资 分 布 主 要 集中 
在 11k 一 30k ,在 总 体 的 薪资 分 布 中 占 比 达 77%(11 一 30 区 间 频 次 总 和 /全 部 频次 总 和 ) ,其 
中 出 现 频次 最 高 的 月 薪资 区 间 在 11k 一 15k。 


2. 薪资 的 平均 值 .中 位 数 和 众 数 
通过 明细 表 ods_jobdata_detail 提取 avg_salary( 高 薪资 十 低 薪 资 的 平均 值 ) 数 据 进行 


sir 
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统计 分 析 , 此 部 分 的 分 析 结 果 本 书 不 做 数据 的 存储 操作 ,通过 查询 结果 查看 分 析 内 容 。 
(1) 求 薪资 的 平均 值 , 平 均值 是 统计 中 的 一 个 重要 概念 。 为 集中 趋势 的 最 常用 测度 值 ， 
目的 是 确定 一 组 数据 的 均衡 点 ,命令 如 下 。 


hive >select avg(avg_salary) from ods_jobdata_detail: 


执行 上 述 语句 后 ,效果 如 图 5-5 所 示 。 


| 192168.121.134 x |@ 192.168.121.135 | @ 192.168.121.136 


Starting Job = job_1564206858205_0080, Tracking URL = http://hadoop01: 8088/proxy/ application_l A 
8205_0080/ 

Kill Comand = /export/servers/hadoop-2. 7. 4/bin/hadoop job -kill job_1564206858205_0080 

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1 

2019-07-31 23: 41:50, 458 Stage-l map = 0%, reduce = 0% 

2019-07-31 23: 41:55, 741 Stage-l map = 100%, reduce = 0%，Cumulative CPU 1.51 sec 

2019-07-31 23: 42: 00,976 Stage-l map = 100%, reduce = 100%, Cumulative CPU 3.31 sec 


MapReduce Total cunulative CPU tine: 3 seconds 310 nsec 
Ended Job = job_1564206858205_0080 

NMapReduce Jobs Launched 

Stage-Stage-1; Map: 1 Reduce: 1 Cumulative CPU: 3.31 sec HDFS Read: 66636 HDFS Write: 19 
Total MapReduce CPU Tine Spent; 3 seconds 310 msec 


21. 223333333333333 
Tine taken: 17.296 seconds, Fetched: 1 row(s) 
hive> 上 


ssh2: AES-256-CTR 16, 7 16 行 ,94 列 VT100 


图 5-5 薪资 平均 值 


从 图 5-5 可 以 看 出 ,全 国 大 数据 相关 职位 薪资 的 平均 值 为 21.223333333333333 。 
(2) 求 薪资 的 众 数 , 众 数 是 指 在 统计 分 布 上 具有 明显 集中 趋势 点 的 数值 ,代表 数据 的 一 
般 水 平 ,也 是 一 组 数据 中 出 现 次 数 最 多 的 数值 ,命令 如 下 。 


hive > select avg_salary,count(1) as cnt from ods_jobdata_detail group by avg_salary order by cnt desc limit 1: 


执行 上 述 语句 后 ,效果 如 图 5-6 所 示 。 


文件 (有 ”编辑 (E) 查看 V) 选项 (0) 传输 () 脚本 (S) 工具 (D 窗口 (W) 帮助 (H) 


测 | 绽 入 主机 <Alt+R> 区 


| 192168.121.134 x | 192.168.121.135 | 192.168.121.136 


Hadoop job infornation for Stage-2: nunber of nappers 
2019-07-31 23:50:21,947 Stage-2 map = 0%, reduce = 0% 

2019-07-31 23:50:27, 115 Stage-2 nap = 100%, reduce = 0%, Cunulative CPU 0.77 sec 

2019-07-31 23:50: 32, 310 Stage-2 map = 100%, reduce = 100%, Cumulative CPU 2.23 sec 

NMapReduce Total cumulative CPU tine: 2 seconds 230 msec 

Ended Job = job_1564206858205_0082 

NapReduce Jobs Launched: 

Stage-Stage-1: Map: 1 Reduce: 1 Cumulative CPU: 2.57 sec HDFS Read: 66178 HDFS Write: 142 
2 SUCCESS 

Stage-Stage-2: Map: 1 Reduce: 1 Cumulative CPU: 2.23 sec HDFS Read: 6041 HDFS Write: 8 SU 
CCESS 

Total MapReduce CPU Tine Spent: 4 seconds 800 nsec 

OK 


1; number of reducers: 1 


ine taken: 36.745 seconds, Fetched: 1 row(s) 国 
hive> 目 


就 绪 ssh2: AES-256-CTR 16, 7 16 行 , 94 列 VT100 大 写 数字 a 
图 5-6 薪资 众 数 
从 图 5-6 可 以 看 出 ,全 国 大 数据 相关 职位 薪资 的 众 数值 为 22.5 :在 整体 薪资 值 中 出 现 了 


68 次 。 
(3) 求 薪资 的 中 位 数 , 中 位 数 又 称 中 值 ,是 统计 学 中 的 专 有 和 名词, 是 按 顺 序 排列 的 一 组 
数据 中 居于 中 间 位 置 的 数 , 代 表 一 个 样本 、 种 群 或 概率 分 布 中 的 一 个 数值 ,命令 如 下 。 


hive > select percentile(cast(ave_salary as BIGINT), 0.5) from ods_jobdata_detail: 


执行 上 述 语句 后 ,效果 如 图 5-7 所 示 。 


文件 月” 编 加 查看 V) 选 页 (0) 传输 脚本 (S) 工具 (窗口 W) 帮助 
5 辣 强 疯 苞 和 主机 <Ak+R> 可 


bol 也 的 名 号 [村 2 
| 192.168.121.134 x 9 192.168.121.135 | e 192.168.121.136 


564206858205_0083 

Kill Comand = /export/servers/hadoop-2.7.4/bin/hadoop job -kill job_1564206858205_0083 
Hadoop job information for Stage-1: mumber of mappers: 1; nunber of reducers 

2019-07-31 23:58:59,985 Stage-! map = 0%, reduce = 0% 

2019-07-31 23:59:04,177 Stage-! map = 100%, reduce = 0%, Cunulative CPU 1.59 sec 
2019-07-31 23:59: 10,371 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 3.23 sec 
NMapReduce Total cunulative CPU time: 3 seconds 230 msec 

Ended Job = job_1564206858205_0083 

MapReduce Jobs Launched 

Stage-Stage-1: Map: 1 Reduce: 1 Cumulative CPU: 3.23 sec HDFS Read: 67803 HDFS Write: 5 5 
UCCESS 

Total MapReduce CPU Time Spent; 3 seconds 230 msec 

OK 


Time taken: 17.123 seconds, Fetched: 1 row(s) 
hive> 目 


ssh2: AES-256-CTR 16, 7 16 行 ,94 列 VT100 
图 5-7 薪资 中 位 数 


从 图 5-7 可 以 看 出 ,全 国 大 数据 相关 职位 薪资 的 中 位 数值 为 20.0。 

通过 观察 薪资 平均 值 . 众 数 和 中 位 数 的 分 析 结 果 , 可 以 得 出 结论 ,在 全 国 大 部 分 大 数据 
职位 的 月 薪资 在 20k 以 上 。 

根据 前 两 部 分 对 薪资 的 分 析 , 按 照 国 家 统计 局 公布 2018 年 全 国 城镇 非 私 营 单位 就 业 人 
员 年 平均 工资 为 82461 元 (月 工资 在 6872 元 左右 ) 来 看 .显而易见 ,从 事 大 数据 职业 对 个 人 
经 济 收益 来 说 还 是 比较 可 观 的 。 


3. 各 城市 平均 薪资 待遇 


通过 在 查询 语句 中 添加 group by( 分 组 ) ,avg( 平 均值 ) 和 order by( 排 序 ) 等 函数 对 明细 
表 ods_jobdate_detail 中 avg_salary( 高 薪资 十 底薪 资 的 平均 值 ) 和 city( 城 市 ) 这 两 个 字段 数 
据 进 行 统计 分 析 获取 各 城市 平均 薪资 待遇 ,具体 查询 语句 如 下 。 


hive > select city.count(city).round(avg(avg_salary).2) as cnt from ods_jobdata_detail group by city order by cnt desc: 


执行 上 述 语句 后 ,效果 如 图 5-8 所 示 。 

通过 观察 图 5-8 各 城市 平均 薪资 待遇 分 析 结 果 , 可 以 看 出 最 终 的 查询 结果 包含 三 部 分 
数据 : 城市 名 称 ,城市 职位 数 和 城市 平均 薪资 ,从 数据 来 看 ,长 春 的 大 数据 职位 平均 薪资 最 
高 ,但 是 该 城市 只 有 一 个 招聘 的 工作 岗位 ,可 以 说 是 一 枝 独 秀 ,没有 什么 选择 性 。 相 比较 , 北 
京 ` 上 海 深圳、 杭州 这 四 个 城市 的 平均 薪资 待遇 都 在 20k 以 上 ,而 且 招聘 职位 相 比 较 其 他 城 
市 较 多 ,机遇 更 多 一 些 , 作 为 想 要 参加 大 数据 相关 职位 的 工作 人 员 可 以 以 这 四 个 城市 作为 首 
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文件 (有 ”编辑 (E) ”查看 V) ”选项 (DO) 传输 (] 脚本 (S) 工具 (| 窗口 (W) 帮助 (H) 


租 末 汁 六 落 如 二 囊 个 党 葛 到 尘 辐 肿 上 省 
下 尝 附 注 垦 获 海 沼 注 注 E 测 注 炸 污 源 避 莽 注 补 


1 12.0 
Time taken: 37.821 seconds, Fetched: 22 row(s) 


就 绪 ssh2: AES-256-CTR 26, 7 26 行 , 104 允 VT100 大 瑟 数字 


图 5-8 各 城市 平均 薪资 


要 选择 。 
5.3.3 公司 福利 分 析 


通过 对 公司 福利 字段 进行 分 析 , 了 解 大 数据 职位 相关 公司 对 员工 福利 常用 的 标签 都 有 
哪些 ,通过 中 间 表 t_ods_tmp_company 提取 福利 标签 数据 进行 统计 分 析 , 将 分 析 结 果 存 储 
在 维度 表 t_ods_company 中 ,命令 如 下 。 


hive >insert overwrite table t_ods_company select col.count(1) from t_ods_tmp_company group by col: 


查看 维度 表 t_ods_company 中 的 分 析 结 果 , 使 用 sort by 参数 对 表 中 的 count 列 进 行道 
序 排序 ,因为 标签 内 容 数 据 较 多 ,所 以 加 上 limit 10 参数 查看 出 现 频次 最 多 的 前 10 个 福利 
标签 ,命令 如 下 。 


hive > select every_company,count from t_ods_company sort by count desc limit 10: 

执行 上 述 语句 后 ,效果 如 图 5-9 所 示 。 

通过 观察 图 5-9 福利 标签 的 分 析 数 据 , 可 以 看 到 公司 对 员工 的 福利 政策 都 有 哪些 ,出 现 
频次 较 多 的 福利 标签 可 以 视 为 大 多 数 公司 对 员工 的 标准 待遇 ,在 选择 入 职 公司 时 可 作为 一 


个 参考 。 在 第 6 章 中 将 对 这 些 福 利 标 签 数 据 进 行 词 云 展示 ,以 更 加 直观 的 方式 观察 所 有 福 
利 标签 内 容 


5.3.4 职位 技能 要 求 分 析 
通过 对 技能 标签 分 析 , 了 解 要 从 事 大 数据 相关 工作 需要 掌握 哪些 技能 ,招聘 公司 比较 重 


文件 (有 ] ”编辑 (E) ”查看 (V) 选项 (O) er BS) | TR ed 帮助 (H) 
漳 弱 /向 | 组 疯 | 苇 入 主 轴 <At+R> qr z @ 


192.168.121.134 x a 


2019-08-01 00:41: 567, 569 Stase-2 nap = 100%, reduce = 0%, Cunulative CPU 0.81 sec 

2019-08-01 00: 42: 02, 745 Stage-2 map = 100%, reduce = 100%, Cunulative CPU 2.35 sec 

NMapReduce Total cumulative CPU time: 2 seconds 350 msec 

Ended Job = job_1564206858205_0087 

MapReduce Jobs Launched: 

Stage-Stage-1; Map: 1 Reduce: 1 Cumulative CPU: 2.73 sec HDFS Read: 16980 HDFS Write: 409 SUCCESS 
Stage-Stage-2: Map: 1 Reduce: 1 Cumulative CPU: 2.35 sec HDFS Read: 4897 HDFS Write: 284 SUCCESS 
Total NapReduce CPU Time Spent: 5 seconds 80 nsec 


体检 
Time taken: 38.516 seconds, Fetched: 10 row(s) 
hive> 上 


ssh2: AES-256-CTR 21, 7 21 行 , 1025 VT100 
图 5-9 福利 标签 分 析 


视 哪 些 技能 ,通过 中 间 表 t_ods_tmp_kill 提取 技能 标签 数据 进行 统计 分 析 ,将 分 析 结 果 存 储 
在 维度 表 t_ods_kill 中 ,命令 如 下 。 


hive > insert overwrite table t_ods_kill select col.count(1) from t_ods_tmp_kill group by col: 


查看 维度 表 t_ods_kill 中 的 分 析 结 果 ,使 用 sort by 参数 对 表 中 的 count 列 进行 逆序 排 
序 ,因为 标签 内 容 数 据 较 多 ,所 以 加 上 limit 3 参数 查看 出 现 频次 最 多 的 前 3 个 技能 标签 , 命 
令 如 下 。 


hive > select every_kilLcount from t_ods_kill sort by count desc limit 3: 


执行 上 述 语句 后 ,效果 如 图 5-10 所 示 。 

通过 观察 图 5-10 技能 标签 的 分 析 数 据 , 看 到 要 从 事 大 数据 相关 工作 需要 掌握 哪些 技 
能 ,这 些 需要 掌握 的 技能 前 三 名 的 占 比 达 38% (前 三 名 技能 出 现 频次 的 总 和 /所 有 技能 出 
现 频次 的 总 和 ) ,也 就 是 说 ,超过 1/3 的 公司 会 要 求 大 数据 工作 者 需要 掌握 Hadoop .Spark 
和 Java 这 三 项 技能 ,对 于 想 要 从 事 这 方面 工作 的 读者 ,可 以 作为 学 习 的 参考 与 准备 。 在 
第 6 章 中 将 对 这 些 技能 标签 数据 进行 词 云 展示 ,以 更 加 直观 的 方式 观察 所 有 技能 标签 
内 容 。 
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er 


强 同 /的 | 疯 | 竺 入 主机 <Akt+R> 


192168.121.134 x | ©@ 192.168.121.135 | @ 192.168.121.136 


In order to set a constant nunber of reducers- 
set mapreduce. job. reduces=Cnunber> 

Starting Job = job_1564206858205_0089, Tracking URL = http://hadoop01:8088/proxy/application_156420685 

8205_0089/ 

Kill Conmand = /export/servers/hadoop-2.7. 4/bin/hadoop job -kill job_1564206858205_0089 

Hadoop job infornation for Stage-2: number of nappers: 1; nunber of reducers- 1 

2019-08-01 01:03:14,248 Stage-2 map = 0%, reduce = 0% 

2019-08-01 01:03:18, 406 Stage-2 map = 100%, reduce = 0%, Cunulative CPU 0.81 sec 

2019-08-01 01:03: 24, 580 Stage-2 map = 100%, reduce = 100%, Cunulative CPU 2.6 sec 

MapReduce Total cumulative CPU time: 2 seconds 600 nsec 

Ended Job = job_1564206858205_0089 

JapReduce Jobs Launched: 

Stage-Stage-1: Map: 1 Reduce: 1 Cumnulative CPU: 2.56 sec HDFS Read: 6238 HDFS Write: 170 SUCCESS 

Stage-Stage-2: Map: 1 Reduce: 1 Cunulative CPU: 2.6 sec HDFS Read: 4652 HDFS Write; 29 SUCCESS 

Total MapReduce CPU Tine Spent: 5 seconds 160 nsec 

OK 


Hadoop 213 
Spark 142 

Java 87 

Time taken: 37.236 seconds, Fetched: 3 row(s) 
hive> 目 


ssh2: AES-256-CTR 21, 7 21 行 , 1025 VT100 
5-10 技能 标签 分 析 


小 结 


本 章 主 要 讲解 通过 Hive 做 数据 分 析 的 相关 知识 ,首先 介绍 了 数据 分 析 和 Hive 作为 数 
据 仓库 的 特点 ;然后 介绍 了 数据 仓库 的 实现 流程 ,从 数据 仓库 的 设计 到 使 用 HQL 实现 数据 
仓库 ;最 后 通过 HQL 对 数据 进行 分 析 。 通 过 本 章 学 习 , 读 者 将 掌握 HQL 创建 数据 仓库 和 
数据 分 析 的 相关 操作 。 


学 习 目 标 

。 掌握 Sqoop 数据 迁移 工具 的 使 用 ; 

。 熟悉 关系 型 数据 库 MySQL; 

。 掌握 SSM JavaEE 开发 框架 的 整合 及 应 用 ; 
。 掌握 ECharts 前 端 框架 的 使 用 。 


通过 第 5 章 使 用 Hive 完成 数据 分 析 过 程 ,此 时 数据 还 存 于 hdfs 上 。 本 章 将 应 用 
Sqoop 将 Hive 中 的 表 数 据 导出 到 关系 型 数据 库 MySQL 中 ,方便 后 续 进行 数据 可 视 化 处 
理 , 使 抽象 的 数据 转化 为 图 形 化 表示 ,便于 非 技术 人 员 的 决策 与 分 析 。 


6.1 平台 概述 


6.1.1 系统 介绍 


招聘 网 站 职位 分 析 数 据 可 视 化 系统 主要 通过 Web 平台 对 分 析 结 果 进 行 图 像 化 展示 , 旨 
在 借助 于 图 形 化 手段 ,清晰 有 效 地 传达 信息 ,能够 真实 反映 现 阶 段 有 关 大 数据 职位 的 内 容 。 
本 系统 采用 ECharts 来 辅助 实现 ,下 面 对 数据 可 视 化 和 ECharts 的 内 容 做 详细 介绍 。 

数据 可 视 化 是 利用 计算 机 图 形 学 和 图 像 处 理 技术 ,将 数据 转换 成 图 形 或 图 像 在 屏幕 上 
显示 出 来 ,从 而 进行 交互 处 理 的 理论 .方法 和 技术 。 数 据 可 视 化 涉及 计算 机 图 形 学 .图像 处 
理 .计算 机 视觉 .计算 机 辅助 设计 等 多 个 领域 ,成 为 研究 数据 表示 、 数 据 处 理 . 决 策 分 析 等 一 
系列 问题 的 综合 技术 。 有 效 的 可 视 化 可 以 帮助 用 户 分 析 、 推 理 数 据 。 数 据 可 视 化 使 复杂 的 
数据 更 容易 理解 和 使 用 。 

ECharts 是 一 款 数据 图 表 , 基 于 JavaScript 的 数据 可 视 化 图 表 库 , 且 兼 容 大 部 分 浏览 
器 ,底层 是 基于 Zrender( 轻 量 级 Canvas 类 库 ) ., 它 包含 许多 组 件 , 例 如 坐标 系 、 图 例 、 工 具 箱 
等 ,并 在 此 基础 上 构建 出 折线 图 ,柱状 图 、 散 点 图 、 饼 图 和 地 图 等 ,同时 支持 任意 维度 的 堆积 
和 多 图 表 混 合 展现 ,展示 效果 功能 强大 , 想 要 充分 学 习 ECharts 的 读者 可 以 浏览 官方 网 站 
http: //echarts. baidu. com/，ECharts 的 运用 较为 简单 ,只 需 在 官网 下 载 相 应 版 本 的 
JavaScript 源 代码 ,并 通过 所 选 实例 的 教程 编写 接口 参数 即 可 。 


6.1.2 系统 架构 
招聘 网 站 职位 分 析 可 视 化 系统 以 Java Web 为 基础 搭建 ,通过 SSM (Spring、 
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SpringMVC、MyBatis) 框 架 实 现 后 端 功 能 ,前 端 在 JSP 中 使 用 ECharts 实现 可 视 化 展示 ,前 
后 端的 数据 交互 是 通过 SpringMVC 与 Ajax 交互 实现 。 为 了 让 读者 更 清晰 地 了 解 本 章 系 
统 架构 ,下 面 通过 一 张 图 来 描述 本 系统 的 架构 图 ,如 图 6-1 所 示 。 


Tomcat 服 务 器 Hive 表 数据 
六 ”| b= 
EChartsUI 3 
Controller si 
发 送 Ajax 请 求 SpringMVC 


前 端 控制 器 


处 理 器 映射 器 
处 理 器 适配器 


sqlsession 


JSP 


Maven 管 理 jar 包 


6-1 招聘 网 站 职位 分 析 可 视 化 系统 架构 图 


从 图 6-1 可 以 看 出 ,招聘 网 站 职位 分 析 可 视 化 系统 的 整体 技术 流程 如 下 。 

(1) 通过 Sqoop 将 Hive 表 中 存储 的 分 析 结 果 导 出 到 关系 型 数据 库 MySQL 中 。 

(2) SpringMVC 的 Controller 接收 前 台 JQuery Ajax 的 GET 请 求 ,开启 与 后 台 的 交互 
功能 。 

(3) Controller 层 调用 Service 层 接口 实现 业务 模块 的 逻辑 应 用 设计 ,对 数据 库 获取 的 
原始 数据 进行 业务 处 理 。 

(4) Service 层 调用 DAO 层 接口 实现 与 数据 库 交 互 , 通 过 在 XXXMapper.xml 中 定义 
的 SQL 语句 获取 响应 数据 。 

(5) Controller 层 通过 Ajax 将 处 理 后 的 数据 以 JSON 数据 形式 响应 给 前 端 。 

(6) 在 JSP 中 通过 ECharts 将 返回 的 JSON 数据 进行 可 视 化 展示 。 


6.2 ”数据 迁移 


6.2.1 创建 关系 型 数据 库 


在 第 5 章 中 ,使 用 Hive 完成 数据 分 析 过 程 后 ,分 析 结 果 数 据 存储 在 HDFS 上 (Hive 中 
数据 用 HDFS 进行 存储 ) ,为 了 方便 后 续 进 行 数据 可 视 化 处 理 , 需 要 将 HDFS 上 的 数据 导出 
到 关系 型 数据 库 MySQL 中 ,本 节 将 详细 讲解 在 MySQL 数据 库 中 创建 用 于 存储 分 析 结 果 
数据 的 数据 表 ,具体 步骤 如 下 。 

(1) 通过 SQLyog 工具 (图 形 化 管理 MySQL 数据 库 的 工具 ) 远 程 连接 hadoop01 服务 
器 下 的 MySQL 服务 ,读者 可 自行 下 载 并 安装 使 用 该 工具 。SQLyog 远程 连接 MySQL 服务 
的 相关 参数 配置 ,如 图 6-2 所 示 。 

(2) 连接 成 功 后 ,效果 如 图 6-3 所 示 。 
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Connect to MySQL Host X 
[ee |] -一 一 [pse。， |] 
Saved Connections 司 国 


MySQL HTTP | SSH SSL 


MySQL host address |192.168.121.134 
Usemame Toot 
Password eeeeee 回 Save Password 
Port 3306 
Database{s] 
WoRKs wh 【Separate multiple databases with a semicolon 


MySQL Leaving Databasefs] blank will display al databases ] 
| 
6-2 远程 连接 MySQL 服务 


 sQLyog Enterprise Trial - MySQL GUI - [hadoop01 - root@192.168.121.134] 
移 File Edit Favorites DB Table Pe Tools Powertools Window Help -8x 


Kb V 5 BD Es | 例 银 旬 风 和 角 | 是- 4 区 图 " 风 阴 甩 及 苔 则 网 胜 辐 吧 


auey|B aueveuider Wo schemaDesigner 


田 国 em Autocomplete: [Tab]->Next Tag. [Ctrl+Space]->List Matching Tags. [Ctrl+Enter]->List All Tags. 

田力 JobData 四 

田 目 hve 

国 国 mysql 
< > 
RQ 2Messaoes 此 3TebleData 品 4objeds 图 5hisom 


BE 


http://www.webyog.ce Exec: 00:00:00:000 Total: 00:00:00:000 0 row(s) Connections:1 Get Support during evaluation! 。 : 
图 6-3 连接 成 功 的 效果 图 


从 图 6-3 可 以 看 出 ,通过 SQLyog 工具 成 功 连接 到 MySQL 数据 库 。 
(3) 通过 SQLyog 工具 在 MySQL 中 创建 JobData 数据 库 , 并 指定 数据 库 编 码 为 utf8， 


命令 如 下 。 


mysql > CREATE DATABASE JobData CHARACTER SET utf8§ COLLATE utf8_general_ci: 


(4) 在 JobData 数据 库 下 创建 需要 图 形 化 展示 的 职位 所 在 城市 的 分 布 表 t_city_count， 


mysql > CREATE TABLE t_city_count( 
city varchar(30) DEFAULT NULL. 
count int(5) DEFAULT NULL 

) ENGINE=InnoDB DEFAULT CHARSET=utfg: 
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(5) 在 JobData 数据 库 下 创建 需要 图 形 化 展示 的 薪资 分 布 表 t_salary_dist, 命 令 如 下 。 


mysql >CREATE TABLE t_salary_dist ( 
salary varchar(30) DEFAULT NULL, 
count int(5) DEFAULT NULL 

) ENGINE=InnoDB DEFAULT CHARSET=utf8: 


(6) 在 JobData 数据 库 下 创建 需要 图 形 化 展示 的 福利 标签 统计 表 t_company_count, 命 
令 如 下 。 


mysql >CREATE TABLE t_company_count ( 
company varchar(30) DEFAULT NULL., 
count int(5) DEFAULT NULL 

) ENGINE=InnoDB DEFAULT CHARSET=utf8: 


(7) 在 JobData 数据 库 下 创建 需要 图 形 化 展示 的 技能 标签 统计 表 t_kill_count, 命 令 
如 下 。 


mysql >CREATE TABLE t_kill_count ( 
kills varchar(30) DEFAULT NULL, 
count int(5) DEFAULT NULL 

) ENGINE=InnoDB DEFAULT CHARSET=utf8: 


至 此 ,在 MySQL 关系 型 数据 库 中 创建 了 用 于 存储 4 个 不 同 分 析 结 果 数 据 的 数据 表 , 在 
6.2.2 节 中 将 详细 讲解 通过 Sqoop 工具 将 HDFS 上 的 数据 加 载 到 MySQL 关系 型 数据 库 中 
的 操作 。 


6.2.2 通过 Sqoop 实现 数据 迁移 


Sqoop 是 一 款 开源 的 工具 ,主要 用 于 在 Hadoop(Hive) 与 传统 的 数据 库 (MySQL、 
PostgreSQL 等 ) 间 进行 数据 的 传递 ,可 以 将 一 个 关系 型 数据 库 ( 例 如 MySQL、 Oracle、 
Postgres 等 ) 中 的 数据 导入 到 Hadoop 的 HDFS 中 ,也 可 以 将 HDFS 的 数据 导入 到 关系 型 
数据 库 中 。 

接 下 来 将 详细 介绍 通过 Sqoop 工具 ,将 HDFS 分 析 结 果 数 据 迁 移 到 6.2.1 节 中 在 关系 
型 数据 库 中 创建 的 对 应 数据 表 中 ,具体 操作 步骤 如 下 。 

(1) 在 安装 Sqoop 工具 的 节点 (这 里 操作 hadoop01 节点 ) 上 执行 Sqoop 导出 数据 命令 ， 
将 大 数据 相关 职位 所 在 城市 的 分 布 统计 结果 数据 迁移 到 MySQL 的 t_city_count 表 中 , 命 
令 如 下 。 


$ bin/sqoop export \ 

- - connect jdbc:mysql://hadoop01:3306/JobData?characterEncoding= UTF- 8 \ 
- - username root \ 

- - password 123456 \ 

- - table t_city_count \ 

- - columns " city,count” \ 

- - fields- terminated- by “* \ 

- - export- dir /user/hive/warehouse/iobdata.db/t_ods_city 


第 6 章 数据 可 视 化 


(2) 在 安装 Sqoop 工具 的 节点 (这 里 操作 hadoop01 节点 ) 上 执行 Sqoop 导出 数据 命令 ， 
将 大 数据 相关 职位 的 薪资 分 布 结 果 数据 迁移 到 MySQL 的 t_salary_dist 表 中 ,命令 如 下 。 


(3) 在 安装 Sqoop 工具 的 节点 (这 里 操作 hadoop01 节点 ) 上 执行 Sqoop 导出 数据 命 
令 ,将 大 数据 相关 职位 的 福利 标签 统计 结果 数据 迁移 到 MySQL 的 t_company_count 表 
中 ,命令 如 下 。 


(4) 在 安装 Sqoop 工具 的 节点 (这 里 操作 hadoop01 节点 ) 上 执行 Sqoop 导出 数据 命令 ， 
将 大 数据 相关 职位 的 技能 标签 统计 结果 数据 迁移 到 MySQL 的 t_kill_count 表 中 ,命令 
如 下 。 


上 述 4 个 命令 中 指定 了 MySQL 连接 .MySQL 的 用 户 名 和 密码 、 表 名 、 表 的 字段 ,分隔 
符 方式 以 及 Hive 数据 在 HDFS 上 的 位 置 ,执行 完成 后 ,可 以 通过 SQLyog 工具 查看 对 应 
MySQL 数据 库 表 的 内 容 , 以 表 t_city_count 为 例 , 如 图 6-4 所 示 。 

从 图 6-4 可 以 看 出 , 表 t_city_count 中 有 城市 统计 数据 ,说 明 实现 了 导入 Sqoop 数据 的 
功能 。 
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SQLyog Enterprise Trial - MySQL GUI - [hadoop01 - root@192.168.121.134"] 一 口 X 
移 Fle Edit Favorites DB Table Objects Tools Powertools Window Help -|slx 
EI 
国 root@192.168.121.134 Oouery|s QueryBuilder BH SchemaDesigner x 
田 国 information_schema Autocomplete: [Tab]->Next Tag. [Ctrl+Space]->List Matching Tags. [Ctri+Enter]->List All Tags. 
日 国 JobData 上 E 
Ba Tables “ > 
田 国 tdty_count 
加 .compeny. count 加 1 nesukt @ 2Messooes Te | sobeas @ snisoy 
田 国 tsalan dist 贸 国 导 芍 刷 口 so lc tini 国 C 1 加 Dissesh ] 
田 四 Views [count ~ 
a Stored Procs 口 | 大 过 2 
田 司 Functions 口 |j 关 津 了 
田 丹 Tiggers 口 | 了 流 1 
a Events 口 | 广州 47 
田 国 hve 口 | 成 都 23| 
回国 | 口 | 杭州 53| 
pg 口 | 武汉 18 
口 | 深圳 58| 
口 
口 
口 
日 国 
口 
口 | 长 沙 10| v 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
hapy/w Exec: 00:00:00:000 Totak 00:00:00:000 22 row( In1.Col1l Connections:1 GetSupport during evaluation! | 


图 6-4 t_city_count 表 数 据 


6.3 平台 环境 搭建 


招聘 网 站 职位 分 析 可 视 化 系统 是 一 个 Java Web 项 目 .本 节 将 通过 Eclipse 开发 工具 详 
细 讲 解 系统 框架 的 搭建 过 程 。 
6.3.1 新 建 Maven 项 目 


(1) 在 Eclipse 中 创建 一 个 Maven 项 目 , 打 开 Eclipse 开发 工具 ,在 Eclipse 主 界面 依次 
单 击 File>New 一 Other, 在 弹出 的 窗口 选择 Maven Project , 单 击 Next 按钮 ,如 图 6-5 所 示 。 


圈 New 口 x 
Select a wizard = 
Create a Maven Project 

Wizards: 

maven 中 
Y 人 Maven 


全 check out Maven Projects from SCM 
次 Maven Module 


时 Maven Project 


图 6-5 新 建 Maven 项目 
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(2) 在 上 一 步 中 单 击 完 Next 按钮 后 ,通过 勾 选 Create a simple project 创建 一 个 简单 
的 Maven 项 目 , 在 创建 Maven 项 目的 最 终 页 面 输入 Group Id 和 Artifact Id, 并 在 
Packaging 中 选择 war 打包 方式 ,设置 完成 后 单 击 Finish 按钮 ,如 图 6-6 所 示 。 


轩 New Maven Project 一 口 天 
New Maven project 人 商 . 
Configure project 
Group ld: [comiitcastjobanalysis pn 
Artifact Id: |job-web ~ 
Version: & |0.0.1-SNAPSHOT ~ 
Packaging: |war ~ 
Name: ~ 
Description: S 
Parent Project 
Group ld: 
Artifact Id: ~ 
Ve ~ [ee BE 
» Advanced 


图 6-6 Maven 项目 


(3) 创建 成 功 后 ,会 提示 “web.xml is missing and 一 failOnMissingWebXml> is set to true” 的 
错误 ,这 是 由 于 缺少 Web 工程 的 web.xml 文件 所 导致 ,只 需要 在 工程 的 src/ main/ webapp/ WEB- 
INF 文件 夹 下 创建 web.xml 文件 即 可 ,读者 也 可 以 通过 右 击 项 目 , 选 择 Java EE Tools 选项 , 单 击 
Generate Deployment Descriptor Stub 选项 便 可 以 快速 创建 web.xml 文件 ,如 图 6-7 所 示 。 


者 workspace - Java - Eclipse = Oo x 
Fle Edt Source Refactor Navigate Search Project Run Window Help 

oH 0 ov 
vc reces]:| 罗 | 对 轩 相 名 前 


HPackage Explorer 5: 0 729 -a 
目 


图 6-7 创建 web.xml 文 件 
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6.3.2 配置 pom.xml 文 件 


本 节 将 配置 平台 所 需 的 jar 包 以 及 相关 插件 :打开 pom.xml 文件 添加 平台 所 需 依赖 和 
插件 ,添加 的 内 容 如 文件 6-1 所 示 。 
文件 6-1 pom.xml 
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上 述 依 赖 的 作用 主要 是 构建 以 SSM 框架 为 基础 的 Java Web 工程 所 需 的 相关 jar 包 ， 
这 些 jar 包 在 上 述 文件 中 已 有 介绍 ,这 里 就 不 再 描述 。 


6.3.3 ”项 目 组 织 结构 


在 正式 讲解 项 目的 编写 之 前 , 先 来 了 解 一 下 项 目 中 所 涉及 的 包 文件 配置 文件 以 及 页 面 
文件 等 在 项 目 中 的 组 织 结构 ,读者 需 根据 项 目 组 织 架构 对 包含 的 内 容 进 行 创建 ,如 图 6-8 
所 示 。 

在 后 面 的 内 容 中 ,会 针对 实现 数据 可 视 化 的 关键 性 代码 进行 详细 讲解 ,部 分 文件 内 容 将 
不 做 陈述 ,读者 可 通过 提供 的 项 目 源 代码 自行 查看 。 


6.3.4 编辑 配置 文件 


(1) 在 项 目 src/main/resources 一 spring 文件 夹 下 的 applicationContext.xml 文件 中 ， 
编写 Spring 的 配置 内 容 , 如 文件 6-2 所 示 。 
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图 6-8 项 目 组 织 结构 


文件 6-2 applicationContext.xml 
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20 <context:property- placeholder 
21 location= "classpath:properties/db properties" /> 
22 ”<!- - 数据 库 连接 池 - - > 

23 ”<bean id= "dataSource" 

24 class= "com.alibaba.druid pool. DruidDataSource" 
25 destroy- method= "close"> 


26 < property name= "url" value="$ {jdbcurlj" /> 

27 < Property name= "username"” value="$ {jdbc.username}" /> 

28 < property name= "password"” value="$ {jdbc.password}" /> 

29 <property name= "driverClassName" value="$ {jdbc.driver}" /> 
30 <property name= "maxActive" value="10" /> 


31 <property name= "minIdle" value="5" /> 
32 </bean> 

33 <!- - MyBatis 和 Spring 整合 - - > 

34 <bean id="sqlSessionFactory” 

35 class="org.mybatis.spring.SqlSessionFactoryBean"> 
36 <! 一 指定 数据 源 - - > 


37 < property name= "dataSource" ref= "dataSource" /> 
38 < 上 - 加 载 MyBatis 的 全 局 配置 文件 - - > 

39 <property name= "configLocation” 

40 value= "classpath:mybatis/Mybatis- Config xml" /> 

41 </bean> 


42 “<!- -使 用 扫描 包 的 形式 来 创建 mapper 代理 对 象 - - > 
43 <bean class= "org.mybatis.spring.mapper.MapperScannerConfigurer"> 

44 < property name= "basePackage” value= "cn itcastmapper" /> 

45 </bean> 

46 ”<!- -配置 事务 管理 组 件 - - > 

47 <bean id= "transactionManager” 

48 class= "org.springframework.jdbc.datasource.DataSourceTransactionManager"> 
49 < 上 -数据 源 - - > 

50 < Property name= "dataSource" ref="dataSource" /> 

51 </bean> 

52 ”<!- - 配置 事务 传播 特性 - - > 


53 <tx:advice id= "txAdvice"” transaction- manager= "transactionManager "> 


54 <tx:attributes> 

55 < 上 - 传播 行为 - - > 

56 <tx:method name= "save * "propagation= "REQUIRED" /> 
57 <tx:method name= "insert * ”propagation= "REQUIRED"” /> 
58 <tx:method name= "add * ”propagation= ”REQUIRED"” /> 
59 <tx:method name= "create * " propagation="REQUIRED" /> 
60 <tx:method name= "delete * " propagation="REQUIRED" /> 
61 <tx:method name= "update * " propagation="REQUIRED" /> 
62 <tx:method name= "find* ” 

63 propagation= "SUPPORTS" 

64 read- only= "true” /> 

65 <tx:method name="select * " 

66 Propagation= "SUPPORTS” 

67 Tead- only="true" /> 

68 <tx:method name="get * " 


69 propagation="SUPPORTS" 
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70 read- only= "true" /> 


7 </tx:attributes> 

72 </tx:advice> 

73 <!- - 配置 参与 事务 的 类 - - > 

74 <aop:config> 

75 <aop:advisor advice- ref= "txAdvice" 

76 pointcut="execution( * cnitcast.service..* .# (.)" /> 
7 </aop:config> 

78 < 上 - 配置 包 扫描 器 .扫描 所 有 带 @ervice 注解 的 类 - - > 

79 < contextcomponent- scan base- package= "cn itcastservice" /> 
80 </beans> 


上 述 代码 中 ,第 20 一 21 行 代 码 用 于 加 载 数 据 库 配置 文件 ;第 23 一 32 行 用 于 配置 数据 库 
连接 池 信 息 ; 第 34 一 41 行 代码 用 于 整合 Spring 和 MyBatis ,创建 SqlSessionFactory 并 指定 
数据 源 和 MyBatis 配置 文件 ;第 43 一 45 行 代码 用 于 将 指定 包 路 径 下 的 映射 器 自动 创建 成 
MapperFactoryBean; 第 47 一 51 行 代码 用 于 配置 事务 管理 组 件 ; 第 53 一 72 行 代码 用 于 配置 
事务 传播 特性 ;第 74 一 77 行 代 码 用 于 配置 参与 事务 的 类 ;第 79 行 代码 用 于 配置 Service 层 
的 包 扫 描 器 。 

(2) 在 项 目 src/main/resources 一 spring 文件 夹 下 的 springmvc. xml 文件 中 ,编写 
SpringMVC 的 配置 内 容 , 如 文件 6-3 所 示 。 

文件 6-3 springmvc.xml 


1 <?xml version="1.0" encoding="UTF- 8"?> 

2 <beans xmlns= "http://www.springframework.org/schema/beans” 

3 xmlns:xsi= "http://Wwww.w3.org/2001/XMLSchema- instance” 

4 xmlns:p= "http://www.springframework.org/schema/p” 

5 xmlns:context= "http://www.springframework.org/schema/context” 

6 xmlns:mvc= "http://www.springframework.org/schema/mvc”" 

学 xsi:schemaLocation= "http://www.springframework.org/schema/beans 
8 http://www.springframework.org/schema/beans/spring- beans- 4.2.xsd 
9 http://www.springframework.org/schema/mve 

10 http://www.springframework.org/schema/mvc/spring- mvc- 4.2.xsd 
11 http://www.springframework.org/schema/context 


12 http://www.springframework.org/schema/context/spring- context- 4.2.xsd"> 
13 <!- - 扫描 指定 包 路 径 使 路 径 当 中 的 @ontroller 注解 生效 - - > 

14 <context:component- scan base- package="cn.itcast.controller" /> 

15 ”<!- -mvc 的 注解 驱动 --> 

16 <Imvc:annotation- driven /> 

17 <!- - 视图 解析 器 - - > 

18 <bean 

19 class= 

20 "org.springframework.web.servlet.view.InternalResourceViewResolver"> 
21 <property name= "prefix" value="/WEB- INF/jsp/” /> 

22 <property name= "suffix" value= "jsp" /> 

23 < /bean> 


24 ”<!- -配置 资源 映射 - - > 
25 < Invc:resources location= "/css/" mapping= /css/xx" 人 > 
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上 述 代码 中 ,第 14 行 用 于 Spring 自动 扫描 base-package 对 应 的 路 径 或 者 该 路 径 的 子 
包 下 面 的 java 文件 ,将 @Controller 注解 的 类 注册 为 Bean; 第 16 行 用 于 启用 注解 驱动 ， 
Spring 会 自动 将 Bean 注册 到 工厂 中 ;第 18 一 23 行 用 于 解析 JSP 页 面 资源 ;第 25 一 29 行 用 
于 访问 静态 资源 文件 。 

(3) 编写 web.xml 文件 ,配置 Spring 监听 器 ,编码 过 滤器 和 SpringMVC 的 前 端 控制 器 
等 信息 ,如 文件 6-4 所 示 。 


文件 6-4 web.xml 


恒 225 大 数据 项 目 实战 


上 述 代 码 中 ,第 7 一 9 行 代码 用 于 配置 系统 的 欢迎 页 (首页 ) ;第 11 一 19 行 代码 用 于 配置 
监听 加 载 Spring 容器 ;第 21 一 30 行 代码 用 于 配置 全 局 控制 字符 编码 ;第 32 一 36 行 代码 用 
于 配置 拦截 的 资源 ;第 38 一 53 行 代码 用 于 配置 Servlet 及 Servlet 映射 ;第 55 一 58 行 代码 用 
于 配置 全 局 错误 页 面 。 

(4) 编写 数据 库 配 置 参数 文件 db.properties, 用 于 项 目的 解 耦 ,代码 如 下 。 


上 述 代 码 是 配置 了 数据 库 连 接 参 数 ,需要 注意 的 是 jdbc.url 参数 中 MySQL 连接 地 址 ， 
需要 根据 读者 具体 情况 填写 。 

(5) 编写 Mybatis-Config.xml 文件 ,用 于 配置 MyBatis 相关 配置 ,由 于 在 applicationContext. 
xml 中 配置 使 用 扫描 包 形 式 创建 Mapper 代理 对 象 .那么 在 Mybatis-Config.xml 文件 中 就 
不 需要 再 配置 Mapper 的 路 径 了 ,具体 配置 如 下 。 
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4 <configuration> 
5 </configuration> 


(6) 将 项 目 运 行 所 需要 的 css 文件 ,assets 文件 ,js 文件 以 及 jsp 页 面 需 按照 图 6-8 中 的 
组 织 结构 引入 到 项 目 中 对 应 的 文件 夹 下 ,项 目 源 代码 将 会 提供 给 读者 使 用 ,基本 都 是 一 些 公 
共 文 件 , 会 针对 实现 数据 可 视 化 的 关键 性 文件 进行 详细 讲解 ,部 分 文件 将 不 做 详细 描述 ,下 
面 对 各 文件 夹 引入 的 文件 进行 简要 介绍 ,如 表 6-1 一 表 6-4 所 示 。 


表 6-1 ess 文件 
文件 名 称 相关 说 明 
bootstrap-reset.css ,bootstrap.min.css bootstrap 前 端 框架 
style-responsive.css style404.css 404.jsp 样式 
style.css index.jsp 样式 
表 6-2 assets 文件 
文件 名 称 相关 说 明 
font-awesome 字体 样式 
表 6-3 js 文件 
文件 名 称 相关 说 明 
echarts.min.js ECharts 可 视 化 框架 
jquery-1.11.3.min.js JQuery 文件 


ECharts 词 频 插件 
index.jsp 页 面 的 JS 内 容 
分 析 结 果 图 形 化 展示 的 JS 内 容 


echarts-wordcloud.js 


index.js 


echarts-view.js 


表 6-4 jsp 文件 
文件 名 称 相关 说 明 
404.jsp 错误 页 面 
index.jsp 图 形 化 展示 页 面 


至 此 ,开发 系统 前 的 环境 准备 工作 就 已 经 完成 。 


6.4 实现 图 形 化 展示 功能 


本 节 主 要 讲解 系统 前 后 端的 代码 实现 ,将 分 析 结 果 数 据 进行 可 视 化 展示 的 功能 。 
前 后 端 交互 的 数据 为 JSON 形式 ,后 端 通 过 将 数据 库 查询 的 数据 封装 为 JSON 形式 返 
回 给 前 端 。 
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6.4.1 实现 职位 区 域 分 布展 示 

1. 创建 实体 类 

在 项 目的 cn.itcast.pojo 包 中 创建 CityPojo 实体 类 对 象 ,用 于 封装 数据 库 获取 的 城市 数 
据 , 在 该 类 中 定义 属性 的 get()/set() 方 法 ,并 重 写 toString() 方 法 ,用 于 自 定义 输出 信息 ,如 


文件 6-5 所 示 。 
文件 6-5 CityPojo.java 


从 文件 6-5 可 以 看 出 ,实体 类 对 象 的 属性 值 与 t_city_count 表 中 字段 保持 一 致 。 


2. 实现 Dao 层 


(1) 在 cn.itcast.mapper 包 下 创建 DAO 层 接口 CityMapper, 并 在 接口 中 编写 查询 城市 
统计 数据 的 方法 ,如 文件 6-6 所 示 。 
文件 6-6 CityMapper.java 


(2) 在 mapper 包 下 创建 MyBatis 映射 文件 CityMapper.xml, 并 在 映射 文件 中 编写 查 
询 语句 ,如 文件 6-7 所 示 。 
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文件 6-7 CityMapper.xml 


上 述 代 码 根据 需求 ,编写 了 一 条 SQL 语句 ,用 来 查询 t_city_count 表 中 的 所 有 数据 。 
3. 实现 Service 层 


(1) 在 cn.itcast.service 包 下 创建 Service 层 接口 CityService, 在 接口 中 编写 一 个 获取 城 
市 统计 数据 的 方法 ,如 文件 6-8 所 示 。 
文件 6-8 CityService.java 


(2) 在 cn.itcast.service.impl 包 下 创建 Service 层 接口 的 实现 类 CityServiceImpl, 在 该 
类 中 实现 接口 中 的 getCityData() 方 法 ,如 文件 6-9 所 示 。 
文件 6-9 CityServicelImpl.java 
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上 述 代 码 中 ,将 查询 的 数据 放 入 resultData 集合 中 ,这 样 就 可 以 利用 Jackson 工具 类 中 
ObjectMapper 对 象 的 writeValueAsString() 方 法 将 集合 转换 成 JSON 格式 的 数据 并 发 送 
给 前 端 。 


4. 实现 Controller 层 


在 cn.itcast.controller 包 下 创建 controller 层 的 实现 类 IndexController, 如 文件 6-10 
所 示 。 
文件 6-10 ”IndexController.java 


从 文件 6-10 看 出 ,第 16 一 19 行 代码 在 getCity() 方 法 中 通过 cityService 对 象 调用 
getCityData() 方 法 将 JSON 格式 数据 返回 给 前 端 并 定义 实现 城市 数据 可 视 化 页 面 时 前 端 
请 求 后 端 获取 数据 的 指定 参数 为 /city”。 


5. 实现 页 面 展示 


在 echarts-view.js 文件 中 创建 city() 方 法 ,通过 在 index.jsp( 首 页 ) 的 职位 区 域 分 布 按 
钮 下 调用 city() 方 法 ,实现 职位 区 域 分 析 的 可 视 化 展示 ,核心 js 代码 片段 如 文件 6-11 所 示 。 
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文件 6-11 echarts-view.js 
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从 上 述 代 码 片段 可 以 看 出 ,第 7 一 9 行 代码 设置 id 为 “dataView” 的 标签 样式 名 为 
general ,并 通过 echarts.init 创建 实例 容器 ;第 10 一 55 行 代码 加 载 ECharts 饼 状 图 模板 ;第 
57 一 64 行 代码 通过 Ajax 异步 请 求 获取 JSON 数据 ,并 将 JSON 数据 动态 填充 到 饼 状 图 模 
板 ,通过 setOption 将 填充 数据 的 饼 状 图 加 载 到 容器 中 实现 数据 可 视 化 功能 。 


6.4.2 实现 薪资 分 布展 示 
1. 创建 持久 化 类 


在 项 目的 cn.itcast.pojo 包 中 创建 SalaryPojo 实体 类 对 象 用 于 封装 数据 库 获 取 的 薪资 
数据 ,在 该 类 中 定义 属性 的 get()/set0 〇 方法 ,并 重 写 toString() 方 法 自 定义 输出 信息 ,如 文 
件 6-12 所 示 。 

文件 6-12 SalaryPojo.java 
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从 文件 6-12 可 以 看 出 ,实体 类 对 象 的 属性 值 与 t_salary_dist 表 中 字段 保持 一 致 。 
2. 实现 DAO 层 


(1) 在 cn.itcast.mapper 包 下 创建 DAO 层 接口 SalaryMapper, 并 在 接口 中 编写 查询 薪 
资 区 间 分 布 数据 的 方法 ,如 文件 6-13 所 示 。 
文件 6-13 SalaryMapper.java 


(2) 在 mapper 包 下 创建 MyBatis 映射 文件 SalaryMapper.xml, 并 在 映射 文件 中 编写 
SQL 查询 语句 ,如 文件 6-14 所 示 。 
文件 6-14 SalaryMapper.xml 


上 述 代 码 根据 需求 ,编写 了 一 条 SQL 语句 ,用 来 查询 t_salary_dist 表 中 的 所 有 数据 。 
3. 实现 Service 层 


(1) 在 cn.itcast.service 包 下 创建 Service 层 接 口 SalaryService, 在 接口 中 编写 获取 薪资 
区 间 分 布 数据 的 方法 ,如 文件 6-15 所 示 。 
文件 6-15 SalaryService.java 
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(2) 在 cn.itcast.service.impl 包 下 创建 Service 层 接口 的 实现 类 SalaryServiceImpl, 在 
该 类 中 实现 接口 中 的 getSalaryData() 方 法 .如 文件 6-16 所 示 。 
文件 6-16 SalaryServiceImpl.java 


上 述 代码 中 ,将 查询 的 数据 放 入 resultData 集合 中 ,这 样 就 可 以 利用 Jackson 工具 类 中 
ObjectMapper 对 象 的 writeValueAsString() 方 法 将 集合 转换 成 JSON 格式 的 数据 发 送 给 前 端 。 


4. 实现 Controller 层 


在 已 有 的 Controller 层 实 现 类 IndexController 中 创建 getSalary() 方 法 ,实现 将 数据 库 
获取 的 薪资 数据 以 JSON 数据 形式 返回 前 端 ,如 文件 6-17 所 示 。 
文件 6-17 IndexController.java 
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5. 实现 页 面 展 示 


在 已 有 的 echarts-view.js 文件 中 创建 salary() 方 法 ,实现 薪资 区 间 分 布 数据 的 可 视 化 
功能 ,核心 JS 代码 片段 如 文件 6-18 所 示 。 
文件 6-18 echarts-view.js 
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上 述 代 码 中 ,第 60 一 71 行 通过 判断 JSON 数据 中 的 Key 值 .将 数据 中 Key 为 "name" 
值 放 入 到 JsonxAxis 数组 中 ,将 Key 为 非 "name" 的 值 放 入 到 JsonSeries 数组 中 。 


6.4.3 ”实现 福利 标签 词 云图 
1. 创建 持久 化 类 


在 项 目的 cn.itcast.pojo 包 中 创建 CompanyPoio 实体 类 对 象 用 于 封装 数据 库 获 取 的 福 
利 标签 数据 ,在 该 类 中 定义 属性 的 get()/set() 方 法 ,并 重 写 toString() 方 法 自 定义 输出 信 
息 , 如 文件 6-19 所 示 。 
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文件 6-19 CompanyPojo.java 


从 文件 6-19 可 以 看 出 ,实体 类 对 象 的 属性 值 与 t_company_count 表 中 字段 保持 一 致 。 
2. 实现 DAO 层 


(1) 在 cn.itcast.mapper 包 下 创建 DAO 层 接口 CompanyMapper, 并 在 接口 中 编写 查询 
福利 标签 统计 数据 的 方法 ,如 文件 6-20 所 示 。 
文件 6-20 CompanyMapper.java 


(2) 在 mapper 包 下 创建 MyBatis 映射 文件 CompanyMapper.xml, 并 在 映射 文件 中 编 
写 SQL 查询 语句 ,如 文件 6-21 所 示 。 
文件 6-21 CompanyMapper.xml 


王 3 短 ”大 数据 项 目 实战 


上 述 代 码 根据 需求 ,编写 了 一 条 SQL 语句 ,用 来 查询 t_company_count 表 中 的 所 有 
数据 。 


3. 实现 Service 层 


(1) 在 cn.itcast.service 包 下 创建 Service 层 接口 CompanyService, 在 接口 中 编写 获取 


福利 标签 统计 数据 的 方法 ,如 文件 6-22 所 示 。 
文件 6-22 CompanyService.java 


(2) 在 cn.itcast.service.impl 包 下 创建 Service 层 接 口 的 实现 类 CompanyServiceImpl， 
在 该 类 中 实现 接口 中 的 getCompanyData() 方 法 ,如 文件 6-23 所 示 。 
文件 6-23 CompanyServiceImpl.java 
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上 述 代 码 中 ,将 查询 的 数据 放 入 resultData 集合 中 ,这 样 就 可 以 利用 Jackson 工具 类 中 
ObjectMapper 对 象 的 writeValueAsString() 方 法 将 集合 转换 成 JSON 格式 的 数据 发 送 给 前 端 。 


4. 实现 Controller 层 
在 已 有 的 Controller 层 实 现 类 IndexController 中 通过 实现 getCompany() 方 法 将 福利 


标签 统计 数据 返回 前 端 ,如 文件 6-24 所 示 。 
文件 6-24 IndexController.java 


5. 实现 页 面 展示 


在 已 有 的 echarts-view.js 文件 中 创建 company() 方 法 ,实现 福利 标签 数据 生成 词 云图 
功能 ,核心 JS 代码 片段 如 文件 6-25 所 示 。 
文件 6-25 echarts-view.js 
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上 述 代 码 中 ,第 51 一 57 行 代码 通过 Ajax 异步 加 载 获 取 后 端 发 送 过 来 的 数据 ,将 这 些 数 
据 加 载 到 ECharts 词 云图 配置 参数 series 中 ,从 而 通过 参数 series 配置 ECharts 词 云图 数 
据 的 属性 data。 
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6.4.4 实现 技能 标签 词 云图 

1. 创建 持久 化 类 

在 项 目的 cn.itcast.pojo 包 中 创建 KillPojo 实体 类 对 象 用 于 封装 数据 库 获取 的 技能 标 
签 数据 ,在 该 类 中 定义 属性 的 get()/set() 方 法 ,并 重 写 toString() 方 法 自 定义 输出 信息 ,如 


文件 6-26 所 示 。 
文件 6-26 KillPojo.java 


从 文件 6-26 可 以 看 出 ,实体 类 对 象 的 属性 值 与 t_kill_count 表 中 字段 保持 一 致 
2. 实现 DAO 层 


(1) 在 cn.itcast.mapper 包 下 创建 DAO 层 接口 KillMapper, 并 在 接口 中 编写 查询 技能 
标签 统计 数据 的 方法 ,如 文件 6-27 所 示 。 
文件 6-27 KillMapper.java 


(2) 在 mapper 包 下 创建 MyBatis 映射 文件 KillMapper. xml, 并 在 映射 文件 中 编写 
SQL 查询 语句 ,如 文件 6-28 所 示 。 
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文件 6-28 KillMapper.xml 


上 述 代 码 根据 需求 ,编写 了 一 条 SQL 语句 ,用 来 查询 t_kill_count 表 中 的 所 有 数据 。 
3. 实现 Service 层 


(1) 在 cn.itcast.service 包 下 创建 Service 层 接口 KillService, 在 接口 中 编写 获取 技能 标 


签 统计 数据 的 方法 ,如 文件 6-29 所 示 。 
文件 6-29 KillService.java 


(2) 在 cn.itcast.service.impl 包 下 创建 Service 层 接口 的 实现 类 KillServiceImpl, 在 该 
类 中 实现 接口 中 的 getKillData( ) 方 法 ,如 文件 6-30 所 示 。 
文件 6-30 ”KillServiceImpl.java 
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上 述 代 码 中 ,第 17 行 代码 将 数据 库 获 取 的 数据 放 入 lists 集合 中 ;第 19 一 21 行 代码 遍 
历 lists 集合 利用 实体 类 中 重 写 的 toString() 方 法 组 合 每 一 条 数据 并 放 入 resultData 数组 集 
合 中 ;第 25 行 代 码 利 用 writeValueAsString() 方 法 将 集合 转换 成 JSON 格式 的 数据 。 


4. 实现 Controller 层 


在 已 有 的 Controller 层 实现 类 IndexController 中 通过 实现 getKill() 方 法 将 技能 标签 
统计 数据 返回 前 端 ,如 文件 6-31 所 示 。 
文件 6-31 


5. 实现 页 面 展示 


在 已 有 的 echarts-view.js 文件 中 创建 kill() 方 法 实现 技能 标签 数据 生成 词 云图 功能 , 核 
心 JS 代码 片段 如 文件 6-32 所 示 。 
文件 6-32 
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上 述 代码 中 ,实现 技能 标签 词 云图 展示 与 福利 标签 词 云图 的 实现 基本 一 致 ,这 里 就 不 再 
做 讲解 。 
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6.4.5 平台 可 视 化 展示 


至 此 ,已 完成 招聘 网 站 职位 分 析 可 视 化 系统 的 环境 准备 及 代码 实现 ,下 面 讲解 如 何 通过 
Eclipse 开发 工具 启动 该 系统 查看 可 视 化 结果 。 

在 Eclipse 开发 工具 中 ,右键 单 击 job-web 项 目 , 选 择 Run As 一 Maven build, 在 Goals 
文本 框 输入 “tomcat7: run” 启 动 Tomcat 服务 , 待 项 目 启动 完成 后 ,在 浏览 器 的 地 址 栏 输入 
http: //localhost: 8080/index.html 网 址 , 即 可 打开 招聘 网 站 职位 分 析 可 视 化 系统 主 界面 ， 
通过 展开 左 侧 导 航 栏 , 单 击 对 应 的 分 析 按 钮 查看 展示 效果 ,如 图 6-9 一 图 6-12 所 示 。 


上 海 


深圳 


图 6-9 职位 区 域 分 布 饼 状 图 
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6-10 ”薪资 分 布 柱状 图 
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图 6-12 技能 标签 词 云图 


通过 观察 图 6-9 职位 区 域 分 布 饼 状 图 中 各 个 扇 区 的 大 小 ,了 解 每 个 城市 招聘 的 职位 数 
在 全 国 数据 中 所 占 的 比例 。 

通过 观察 图 6-10 薪资 分 布 柱状 图 各 个 柱 形 的 长 度 , 了 解 全 国 大 数据 薪资 区 间 的 分 布 情况 。 

通过 观察 图 6-11 福利 标签 词 云图 中 每 个 词语 出 现 的 大 小 ,了 解 全 国 招 聘 大 数据 公司 的 
福利 主要 集中 在 哪 几 个 方面 。 

通过 观察 图 6-12 技能 标签 词 云图 中 每 个 词语 出 现 的 大 小 ,了 解 全 国 招聘 大 数据 的 公司 
主要 要 求 求 职 者 需要 掌握 哪些 技能 。 

至 此 ,招聘 网 站 职位 分 析 可 视 化 系统 搭建 完成 ,通过 系统 的 可 视 化 展示 可 以 更 加 清晰 地 
观察 数据 。 


小 结 
本 章 主 要 讲解 数据 可 视 化 ,使 用 SSM 框架 (Spring、Spring MVC 和 MyBatis)、JQuery 和 


ECharts 图 表 库 等 网 页 开发 技术 对 数据 分 析 结果 进行 可 视 化 展示 。 通 过 本 章 学 习 , 读 者 将 掌握 
开发 网 页 应 用 的 总 体 流程 ,在 网 页 中 以 图 表 形 式 对 分 析 结果 进行 可 视 化 呈现 。 


